平面幾何学の問題解決において、マルチモーダルモデルが抱える視覚的な認識誤りや論理推論能力の低下を克服するため、図形を簡潔な幾何学的記述言語(CDL)へ変換する「インタープリター」と、その記述を基に解答を導く「ソルバー」を分離した二段階のフレームワークを提案しています。
平面幾何学の問題解決において、マルチモーダルモデルが抱える視覚的な認識誤りや論理推論能力の低下を克服するため、図形を簡潔な幾何学的記述言語(CDL)へ変換する「インタープリター」と、その記述を基に解答を導く「ソルバー」を分離した二段階のフレームワークを提案しています。 この手法では、視覚情報を直接処理するのではなく、構造化された中間言語を介在させることで大規模言語モデルが本来持つ高度な推論能力を最大限に引き出し、わずか5.5kの高品質な訓練データを用いた学習だけで、主要なオープンソースおよびクローズドソースのモデルを凌駕する性能を達成しました。 学習プロセスには、思考の連鎖(CoT)を組み込んだ教師あり微調整と、生成された記述の正確性を直接評価する「CDLマッチング報酬」を用いたグループ相対方策最適化(GRPO)を導入しており、従来の正解の成否のみに頼る報酬設計よりも高密度で効果的な学習ガイドを実現しています。
平面幾何学問題解決(PGPS)は、幾何学的な図形とそれに付随するテキスト説明の両方を正確に解釈し、厳密な論理的結論を導き出す必要がある非常に高度なマルチモーダル推論タスクです。この分野において、大規模言語モデル(LLM)は優れた論理推論能力を備えているものの、視覚情報を直接処理できないため、図形を含む問題を単独で解くことは困難でした。一方で、視覚とテキストの両方を扱えるマルチモーダル大規模言語モデル(MLLM)が登場しましたが、既存のエンドツーエンドな微調整手法には深刻な課題が残されています。まず、最新のモデルであっても視覚的な認識精度には限界があり、図形内の角度や線分の長さを誤認するエラーが頻発します。例えば、特定の角度を別の角度と取り違えるといった小さなミスが、最終的な回答の致命的な誤りに直結してしまいます。また、視覚理解と論理推論を同時に学習させる共同最適化のアプローチは、モデルが本来持っていた汎用的な推論能力を損なってしまうという副作用も指摘されています。 本研究の予備調査によれば、図形の情報を適切なテキスト形式に変換して与えれば、既存の言語モデルは非常に高い精度で問題を解くことができることが示されました。…
本研究では、幾何学図形を「条件宣言言語(CDL)」と呼ばれる簡潔で構造化されたテキスト記述に変換する「MLLMインタープリター」と、その記述を基に推論を行う「LLMソルバー」を組み合わせた、新しい二段階のフレームワークを提案しています。このアプローチの核心は、視覚情報と論理推論の間にCDLという明確な「架け橋」を設けることにあります。CDLは、図形の構成要素や幾何学的な関係を厳密に定義できる言語であり、自然言語による冗長な説明と比較して探索空間を大幅に狭めることができるため、モデルの学習効率を劇的に向上させる特性を持っています。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related