本研究は、科学分野の複雑なマルチホップ質問応答において、反復的な検索と推論のループが、理想的な静的根拠(ゴールドコンテキスト)を上回る性能を発揮することを解明しました。11種類の最新大規模言語モデルを用いた実験の結果、反復的RAGは非推論特化型モデルにおいて最大25.
本研究は、科学分野の複雑なマルチホップ質問応答において、反復的な検索と推論のループが、理想的な静的根拠(ゴールドコンテキスト)を上回る性能を発揮することを解明しました。11種類の最新大規模言語モデルを用いた実験の結果、反復的RAGは非推論特化型モデルにおいて最大25.6ポイントの精度向上を記録し、理想的な情報が一度に与えられる状況よりも高い成果を示しています。この結果は、単に正しい情報が存在することよりも、推論の過程に合わせて段階的に情報を取得し、自己修正を行うプロセス自体が重要であることを示唆しており、専門領域におけるRAGシステム設計に新たな指針を与えています。
科学分野におけるマルチホップ質問応答は、複数の情報源から証拠を繋ぎ合わせ、中間的な結論を合成して最終的な回答を導き出す必要があるため、極めて難易度が高い課題です。従来の検索拡張生成(RAG)の多くは、検索を静的な前処理として扱い、固定された文脈に基づいて一度に回答を生成する手法を採用してきましたが、これでは複雑な推論ステップに対応しきれないという問題がありました。特に化学のような専門領域では、関連する知識が分散しており、推論の過程で生じる中間的な疑問を解消しながら証拠を積み上げることが不可欠となります。これまでの研究では、データセットの作成者が提供する「理想的な根拠(ゴールドコンテキスト)」が性能の上限であると仮定されることが一般的でしたが、実際には大量の情報が一度に与えられることで文脈の過負荷が生じたり、モデルの推論の軌跡と情報の提示順序が一致しなかったりする弊害が指摘されていました。 本研究がこの問題に取り組む背景には、科学的な問いが単一の事実の検索では解決できず、複数のステップを経て知識のギャップを埋める必要があるという性質があります。…
本研究は、新しいアルゴリズムの提案ではなく、反復的な検索と推論の同期が理想的な証拠を凌駕する条件を特定するための、制御されたメカニズムレベルの診断的評価を提案しました。具体的には、11種類の最新大規模言語モデルを「コンテキストなし(内部知識のみ)」、「ゴールドコンテキスト(理想的な証拠を一度に提示)」、「反復的RAG(検索、仮説の洗練、終了判定を繰り返すループ)」という3つの体制下で比較検証しました。評価の舞台として、1186件の質問を含む化学分野のデータセット「ChemKGMultiHopQA」を使用し、1段階から4段階のホップを必要とする複雑な推論課題を設定しました。このデータセットは、ChemRxivやPubChem、Wikipediaなどの信頼できる情報源から構築されており、モデルが内部知識だけで回答できない、真に検索を必要とする質問を抽出して分析の対象としています。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related