ScholarGym:学術文献検索における深い研究ワークフローのベンチマーク
従来の深層リサーチワークフローの評価は、ライブAPIの非決定性や検索インデックスの時間的変動、レート制限などの環境的要因により再現性が困難であったが、本研究では57万件の固定コーパスと確定的な検索エンジンを用いたシミュレーション環境「ScholarGym」を開発した。
最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。
Cog AI Archive
従来の深層リサーチワークフローの評価は、ライブAPIの非決定性や検索インデックスの時間的変動、レート制限などの環境的要因により再現性が困難であったが、本研究では57万件の固定コーパスと確定的な検索エンジンを用いたシミュレーション環境「ScholarGym」を開発した。
従来の学術文献検索の評価は、Google SearchなどのライブAPIに依存していたため、検索インデックスの更新やレート制限といった外部要因により結果が変動し、再現性が確保できないという根本的な課題がありました。
マルチモーダル大規模言語モデル(MLLM)の音声・動画理解能力を評価するため、13の実世界ドメインを網羅した4,958件の高品質な注釈付きデータセット「SONIC-O1」が提案されました。 このベンチマークは、要約、多肢選択問題、時間的ローカライゼーションの3つのタスクを通じて、モデルが音声と映像の両方を統合的に理解できているかを厳密に検証し、特に社会的公平性の観点から人口統計学的なメタデータを付与している点が特徴です。 検証の結果、クローズドソースモデルがオープンソースモデルを圧倒し、特に時間的推論において22.6%もの大きな性能差があることや、人種や性別などの属性によってモデルの精度に偏りが生じることが明らかになりました。
FITは、大規模言語モデル(LLM)が連続的なデータ削除要求を受けた際に発生する「破滅的忘却」を防ぐための新しい学習フレームワークである。 この手法は、重複情報のフィルタリング、重要度に応じたアルゴリズムの適応的選択、そして影響の大きい層に限定した更新という3つの戦略を統合することで、モデルの性能維持と確実な情報消去を両立させている。 また、個人情報や著作権、有害コンテンツを網羅した評価ベンチマーク「PCH」と、消去の度合いと性能維持を統合的に測る新指標を提案し、300件もの連続的な要求に対しても既存手法を凌駕する堅牢性を実証した。
XFACTORSは、変分自己符号化器(VAE)を基盤とし、対照学習と情報ボトルネックの理論を組み合わせることで、データの独立した変動要素を明示的に制御・分離する新しい弱教師あり学習フレームワークである。
マルチモーダル大規模言語モデル(MLLM)のファインチューニングにおいて、悪意のあるデータ混入によるバックドア攻撃を防御するための新しい教師なしフレームワーク「TCAP」が提案されました。 この手法は、攻撃時に「システム指示」「視覚入力」「テキストクエリ」の3要素間でのアテンション配分が極端に偏る「アテンション配分分岐(Attention Allocation Divergence)」という普遍的な内部特徴を検知に利用します。 実験では、外部の参照データや教師ラベルを一切必要とせず、画像全体に分散した不可視のトリガーや多様なモデル構造に対しても、既存手法を上回る極めて高い精度で毒入れサンプルを特定・除去できることが実証されました。
大規模言語モデル(LLM)が欧米中心のデータに偏り、多様な文化圏の価値観を正確に反映できない問題を解決するため、世界価値観調査(WVS)のデータと構造化された知識表現であるオントロジーを組み合わせた新しい推論フレームワーク「OG-MAR」が提案されました。
現在の大規模言語モデルが抱える「一語ずつ順番に生成する」という非効率な逐次処理を打破するため、人間の熟練した読解プロセス(予習・情報の塊化・飛ばし読み)をモデル内部に直接組み込んだ新しいアーキテクチャ「Fovea-Block-Skip Transformer(FBS)」が提案されました。
TACLerは、モデルの習熟度に合わせて学習データの難易度を段階的に引き上げる「個別最適化カリキュラム学習」と、詳細な思考と簡潔な回答を使い分ける「ハイブリッド推論モード」を統合した強化学習フレームワークである。
布操作という高次元で複雑な課題に対し、知覚と推論のプロセスを分離することで、学習効率とモデルの軽量化を同時に実現する新しいフレームワークを提案している。シミュレーション内の完全な状態情報を活用して「最適なエージェント」を訓練し、その知識を視覚ベースの現実世界用モデルへと「クロスモダリティ蒸留」によって転移させる手法を確立した。既存のベンチマークにおいて、従来手法よりもモデルサイズを95%削減しながら、性能を21%向上させることに成功し、大規模なデモンストレーションなしでの効率的な学習が可能であることを証明した。