EndoCoT は、拡散モデルに組み込んだ MLLM の思考状態を一度きりで固定せず、潜在空間で反復更新しながら推論を深める枠組みです。 中心には iterative thought guidance module と terminal thought grounding module があり、途中の思考を深めつつ、最後は正解テキストへ接地させて推論軌跡を崩れにくくします。 Maze、TSP、VSP、Sudoku で平均精度 92.1% を達成し、最強ベースラインを 8.3 ポイント上回りました。難しい設定では Maze-32 で 90%、Sudoku-35 で 95% と、複雑化に強い点も目立ちます。
最近の multimodal diffusion 系研究では、MLLM を text encoder として差し込む設計が増えています。ところが多くの場合、テキスト条件は生成の最初に一度だけ計算され、その後は固定されたまま denoising が進みます。これでは、複雑なタスクを途中で分解しながら解く chain-of-thought のような振る舞いが出にくい。
提案の中心は Endogenous Chain-of-Thought、略して EndoCoT です。endogenous という名前が示す通り、外から明示的な文章の CoT を何本も注入するのではなく、モデル内部の latent thought state を更新し続けるところに特徴があります。
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related