科学論文向けのマルチモーダル推論データを作るときは、量を増やすと幻覚が増えやすく、忠実さを優先すると現実の長大文書らしさが失われるという板挟みがある。 SciMDR は、この板挟みを「小さな根拠断片で正確に生成する段階」と「それを論文全体へ再配置して実運用に近づける段階」に分けることで、30万件規模と高忠実性と文書全体の複雑さを同時に狙う。 Qwen2.5-VL-7B を SciMDR で学習すると、独自ベンチ SCIMDR-Eval で 19.8 から 49.1 へ伸び、GPT-5.2 の 49.9 に迫る水準まで到達した。
科学論文を相手にした質問応答は、一般的な図表QAよりかなり難しい。理由は単純で、答えが一枚の図だけに閉じていないからです。本文のどこかにある前提、図表の数値、キャプションの注記、議論節での解釈がばらばらに散っており、それらをつないで初めて答えになる場面が多い。しかも論文は長く、関係のない図や段落も大量に含むので、単にコンテキストを長く渡せば解けるわけでもありません。むしろノイズが増えるほど、モデルは「どこを見ればよいか」を見失いやすい。
提案の中心は、synthesize-and-reground という二段階のデータ生成パラダイムです。発想の肝は、最初から論文全体を相手に難しい質問を作ろうとしないことにあります。まずは小さく切り出した文脈で、検証しやすい原子的な主張と質問応答を高忠実に作る。その後で、そのQAを元の論文全体へ「再接地」し、実際の長文推論タスクとして再構成する。つまり、正確さを稼ぐ工程と、現実的な難しさを与える工程を切り離したわけです。
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related