平面幾何問題(PGPS)において、マルチモーダルLLM(MLLM)が抱える視覚的誤認や推論能力の低下という課題を解決するため、幾何学図形を「条件宣言言語(CDL)」という簡潔なテキスト記述に変換し、それを既存の強力なLLMに読み込ませて解かせるという新しい推論パラダイムを提案しました。
平面幾何問題(PGPS)において、マルチモーダルLLM(MLLM)が抱える視覚的誤認や推論能力の低下という課題を解決するため、幾何学図形を「条件宣言言語(CDL)」という簡潔なテキスト記述に変換し、それを既存の強力なLLMに読み込ませて解かせるという新しい推論パラダイムを提案しました。 この手法では、MLLMインタープリターを「思考の連鎖(CoT)」を用いた教師あり微調整(SFT)と、報酬設計を工夫した「グループ相対方策最適化(GRPO)」の2段階で学習させることで、図形情報を正確に言語化する能力を向上させ、視覚情報と論理推論の分離に成功しています。 わずか5,500件の高品質な学習データを用いた検証の結果、提案手法は主要なオープンソースMLLMを大幅に凌駕し、Claude-4.1-OpusやGemini-2.5-Proといった最先端のクローズドソースモデルに匹敵する性能を達成しており、簡潔な幾何学的記述がLLMの推論能力を最大限に引き出す架け橋となることを実証しました。
平面幾何問題の解決(PGPS)は、幾何学的な図形と問題文のテキスト記述の両方を統合的に理解して解を導き出す、高度なマルチモーダル推論タスクです。このタスクは、複雑な視覚的知覚と厳密な論理的推論能力の両方を要求されるため、現在の人工知能技術においても大きな挑戦となっています。既存のマルチモーダル大規模言語モデル(MLLM)は、大規模なデータセットを用いてエンドツーエンドで微調整を行うことで、視覚理解と推論能力を同時に向上させようとしてきました。しかし、このような共同最適化のアプローチには、いくつかの重大な欠点があることが明らかになっています。 第一に、MLLMは依然として深刻な視覚的誤認を起こすことがあります。例えば、図形内の角度を誤って認識したり、線分の接続関係を見落としたりといったミスが、最終的な推論の失敗に直結します。第二に、エンドツーエンドの学習プロセスが、ベースとなるLLMが本来持っている強力な推論能力を損なってしまう可能性があるという点です。視覚情報の処理と論理的な推論を一つのモデルで同時に最適化しようとすると、推論の厳密さが犠牲になる傾向があります。…
本研究では、幾何学的な入力を簡潔なテキスト記述に変換することで、LLMの推論能力をPGPSに活用する新しいパラダイムを提案しています。具体的には、図形情報を言語化する「MLLMインタープリター」と、その記述を基に問題を解く「LLMソルバー」の二段階構成を採用しました。この架け橋となるテキスト記述には、条件宣言言語(CDL)という形式が選ばれています。 CDLは、図形の構造を定義する構成文(ConsCDL)と、図形や問題文から得られる幾何学的・代数的な関係を示す条件文(ImgCDLおよびTextCDL)で構成されます。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related