AI研究 2026-02-01 タグ: cs.AI

ScholarGym：学術文献検索における高度な研究ワークフローのベンチマーク

従来の学術文献検索の評価は、Google SearchなどのライブAPIに依存していたため、検索インデックスの更新やレート制限といった外部要因により結果が変動し、再現性が確保できないという根本的な課題がありました。

論文図解

TL;DR（結論）

従来の学術文献検索の評価は、Google SearchなどのライブAPIに依存していたため、検索インデックスの更新やレート制限といった外部要因により結果が変動し、再現性が確保できないという根本的な課題がありました。本研究が提案するScholarGymは、57万本の論文からなる静的なコーパスと決定論的な検索手法を組み合わせたシミュレーション環境であり、クエリ計画、ツール呼び出し、関連性評価の各段階を切り離して精密に分析することを可能にします。実験の結果、反復的なクエリ計画は直接的な検索に比べてF1スコアを最大3.3倍向上させたほか、思考型モデルは適合率を大幅に向上させる一方で再現率を犠牲にするという特有のトレードオフが存在することが明らかになりました。

なぜこの問題か

大規模言語モデル（LLM）の進化に伴い、単一の質問に回答する形式から、外部ツールを駆使して情報を統合する「ディープリサーチ」へとパラダイムが移行しています。特に学術文献の調査においては、複雑な問いを複数のサブクエリに分解し、反復的に検索とフィルタリングを行うワークフローが実用化されつつあります。しかし、このような高度なプロセスを客観的かつ再現可能な形で評価することは、極めて困難な課題となっています。その最大の要因は、既存の評価ベンチマークの多くがGoogle SearchやSemantic ScholarなどのライブAPIに依存している点にあります。ライブAPIは、検索インデックスの頻繁な更新や、レート制限による応答の不完全さ、さらにはバックエンドのアルゴリズム変更といった外部要因を排除できません。これにより、同じモデルやシステムを評価しても実行のたびに結果が変動し、システム間の公平な比較や技術的な進歩の正確な測定が阻害されています。…

核心：何を提案したのか

本研究は、学術文献検索における高度な研究ワークフローを再現可能な形で評価するためのシミュレーション環境「ScholarGym」を提案しました。この環境の核心は、ライブAPIを排除し、57万本の論文からなる静的なコーパスと決定論的な検索アルゴリズムを導入することで、環境由来のノイズを完全に遮断した点にあります。ScholarGymは、研究ワークフローを「クエリ計画」「ツール呼び出し」「関連性評価」という3つの独立した段階にモジュール化して定義しています。これにより、各段階におけるモデルの振る舞いを個別に分析し、どこがボトルネックになっているかを特定することが可能になります。また、長期的な探索プロセスを支えるためのメモリメカニズムとして、サブクエリの派生関係を記録する「サブクエリツリー」と、過去の探索履歴を要約して保持する「経験バッファ」を設計しました。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。