AI研究 2026-02-01 タグ: cs.CL

$G^2$-Reader: マルチモーダル文書QAのための二重進化グラフ

$G^2$-Readerは、テキスト、表、図が複雑に混在する長大なマルチモーダル文書から正確な回答を導き出すために、文書構造を保持する「コンテンツグラフ」と推論を管理する「プランニンググラフ」を組み合わせた革新的な二重グラフシステムである。

論文図解

TL;DR（結論）

$G^2$-Readerは、テキスト、表、図が複雑に混在する長大なマルチモーダル文書から正確な回答を導き出すために、文書構造を保持する「コンテンツグラフ」と推論を管理する「プランニンググラフ」を組み合わせた革新的な二重グラフシステムである。従来の検索拡張生成（RAG）が抱えていた、文書の断片化による文脈喪失と、長い文脈における検索の迷走という二つの根本的な課題を、動的に進化するグラフ構造とエージェントによる段階的な計画立案によって解決している。VisDoMBenchを用いた評価において、オープンソースのQwen3-VL-32B-Instructを基盤としながら66.21%の平均精度を達成し、強力なベースラインや単体のGPT-5が記録した53.08%という数値を大幅に上回る性能を実証した。

なぜこの問題か

検索拡張生成は長大なドキュメントに対する質問応答の実用的なパラダイムですが、テキスト、表、図が多ページにわたって混在するマルチモーダルな読解においては、依然として脆弱です。第一に、一律なチャンク分割はドキュメント固有の構造やモダリティ間の整合性を損ない、単独では解釈が困難な意味の断片を生み出してしまいます。第二に、反復的な検索であっても、永続的なグローバル検索状態を持たず各ステップが現在のスニペットのみに導かれるため、ノイズが蓄積するにつれて部分的な証拠でループしたり、無関係なセクションに逸脱したりして、長いコンテキストでは失敗することがあります。我々は、これら両方の課題を解決するために、デュアルグラフシステムである$G^2$-Readerを提案します。本システムは、ドキュメント固有の構造とマルチモーダルな意味論を保持するために「コンテンツグラフ」を構築し、中間的な発見を追跡して証拠補完のための段階的なナビゲーションを導くために、サブ質問のエージェント的な有向非巡回グラフである「プランニンググラフ」を維持します。…

核心：何を提案したのか

本論文では、これら二つの課題を解決するために、二重グラフシステムである「$G^2$-Reader」を提案している。このシステムの核心は、証拠の表現と検索・推論の両面をグラフ構造によって強化し、それらを動的に進化させるという点にある。具体的には、文書のネイティブな構造とモダリティを越えた意味論を保存するための「コンテンツグラフ（$GC$）」と、推論プロセスを明示的に管理するための「プランニンググラフ（$GP$）」の二つを維持する。コンテンツグラフは、文書内の段落や図表をノードとし、それらの間の参照関係や配置関係をエッジとして表現することで、情報の断片化を防ぐ構造化メモリとして機能する。一方、プランニンググラフは、複雑な質問を複数のサブ質問に分解し、それらの依存関係を管理する有向非巡回グラフ（DAG）として機能する。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。