AI研究 2026-02-01 タグ: cs.AI, cs.IR

いつより多く探索すべきか：強化学習による適応的な複雑なクエリ最適化

論文図解

TL;DR（結論）

検索拡張生成（RAG）において、複雑なユーザーの質問を適切に分解・明確化して検索精度を高めるための新しい強化学習フレームワーク「ACQO」が提案されました。従来の単一クエリの拡張手法とは異なり、クエリの複雑さに応じて適応的に検索プロセスを拡張するかどうかを判断し、複数のサブクエリを生成する仕組みを備えています。このシステムは、クエリを動的に分解する「適応的クエリ再定式化（AQR）」と、複数の検索結果を順位とスコアの両面から統合する「ランク・スコア融合（RSF）」という2つの主要コンポーネントで構成されています。これにより、異なる種類の検索エンジンを組み合わせた場合でも、安定した報酬信号を学習エージェントに提供し、精度の高い情報の集約を可能にしています。学習の不安定さを解消するため、段階的に難易度を上げる「カリキュラム強化学習（CRL）」を採用し、広範な探索から精密な収束へと2段階でモデルを訓練します。実験の結果、TopiOCQAやHotpotQAなどの主要なベンチマークで従来手法を上回る最高水準の性能を達成し、計算効率の向上と幅広い検索アーキテクチャへの適合性も実証されました。

なぜこの問題か

検索拡張生成（RAG）は、外部の証拠に基づいて回答を生成することで、大規模言語モデル（LLM）の事実性や最新性を向上させる重要な手法となっています。このRAGの性能を最大限に引き出すためには、ユーザーの自然言語による質問を検索に適した形式に変換する「クエリ最適化（QO）」が不可欠な要素です。しかし、既存のクエリ最適化手法の多くは、単一のクエリを拡張または抽象化することに焦点を当てており、現実のシナリオで頻発する複雑な情報ニーズへの対応には限界がありました。現実世界では、複数の意図が含まれる質問や、文脈の明確化が必要な対話形式の質問など、単純な一対一のクエリ変換では解決できないケースが多く存在します。具体的には、過去の対話内容を参照して「それ」が何を指すかを判断する明確化クエリや、複数の目的を独立したサブクエリに分割して個別に検索する必要がある分解クエリなどが挙げられます。例えば、「アーセナルが最後にFAカップで優勝したのはいつか？」という質問に続き、「リーグタイトルにおいてチェルシーと比較してどうか？」と問われた場合、システムは「彼ら」がアーセナルを指すことを理解し、比較のために複数の検索を行う必要があります。…

核心：何を提案したのか

本論文では、複雑なクエリに対して「いつ、どのように検索を拡張すべきか」を適応的に判断する強化学習フレームワーク「Adaptive Complex Query Optimization（ACQO）」を提案しています。このフレームワークの核心は、クエリの複雑さと意図の多様性に基づいて、検索プロセスを動的に制御する能力にあります。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。