AI研究 2026-03-02 タグ: cs.AI, cs.CL

良いクエリとは何か：人間が混乱しやすい言語特徴がLLMの幻覚に与える影響を測る

LLMの幻覚リスクをクエリの言語特徴（22次元）として測り、どの問い方が高リスクかを大規模実データで示した研究です。

論文図解

TL;DR（結論）

LLMの幻覚はモデル側の欠陥だけで決まるのではなく、質問文（クエリ）の言語的な「形」そのものが起こしやすさに関係し得る、という観点を示しています。したがって対策は学習や推論だけでなく、入力設計にも置くべきだと整理できます。
人間の理解を難しくすると知られる要素を手がかりに、クエリを22次元の特徴ベクトルで表現しています。さらに369,837件の実クエリで、幻覚リスクの「地形（risk landscape）」という集団的な傾向を観測しています。机上の例文ではなく実データで見た点が骨格です。
深い節の入れ子や記述の不足（underspecification）は高リスク側、意図の明確化（intention grounding）や回答可能性（answerability）は低リスク側に整合すると報告しています。一方で領域特異性（domain specificity）などはデータセットやモデル条件により混合した効果になり得る、と同時に述べています。よって「常に効く単一ルール」ではなく、条件付きの理解が必要です。

なぜこの問題か

LLMの幻覚は、一般にはモデルの学習不足や推論時のデコード戦略の問題として説明されがちです。これに対し本研究は、古典言語学の観点から「聞き手（人間）にとって理解しづらい問い方は、応答の質にも影響し得る」という立場を前面に出しています。ここでの要点は、モデルの内部機構に踏み込まずとも、入力文の表面構造に由来する難しさが応答の不安定さと並走し得る、という問題設定です。現実の利用場面では、同じ目的でもユーザーによって質問の書き方が大きく異なり、曖昧さや省略の度合いもまちまちです。さらに、その差異は語彙の選び方、構文の複雑さ、参照関係（代名詞・指示詞・省略）、否定表現の有無など、複数の言語的特徴として観測可能な形で現れます。もしこれらの特徴が幻覚の発生確率と系統的に関係しているなら、モデル改善に加えて「質問をどう書くべきか」という実務的な設計指針を、経験則ではなく測定可能な形で提示できる可能性があります。つまり本テーマは、幻覚を「出力側の事故」ではなく「入力と出力の相互作用」として扱い直す点に意義があり、運用改善へ接続しやすい問いになっています。

核心：何を提案したのか

本研究が中心に据える提案は、クエリを言語学的特徴の集合として定量化し、幻覚リスクとの関係を大規模に調べるという枠組みです。具体的には、節の複雑さ（clause complexity）、語彙の希少性（lexical rarity）、照応（anaphora）、否定（negation）といった「理解コスト」に関係しやすい要素を含めて、クエリを22次元の特徴ベクトルとして表すと述べています。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。