AI研究 2026-03-13 タグ: cs.CV, cs.CL

EndoCoT：拡散モデルの中で「考え続ける」ことで、迷路や数独を段階的に解かせる

EndoCoT は、拡散モデルに組み込んだ MLLM の思考状態を一度きりで固定せず、潜在空間で反復更新しながら推論を深める枠組みです。中心には iterative thought guidance module と terminal thought grounding module があり、途中の思考を深めつつ、最後は正解テキストへ接地させて推論軌跡を崩れにくくします。 Maze、TSP、VSP、Sudoku で平均精度 92.1% を達成し、最強ベースラインを 8.3 ポイント上回りました。難しい設定では Maze-32 で 90%、Sudoku-35 で 95% と、複雑化に強い点も目立ちます。

論文図解

TL;DR（結論）

EndoCoT は、拡散モデルに組み込んだ MLLM の思考状態を一度きりで固定せず、潜在空間で反復更新しながら推論を深める枠組みです。
中心には iterative thought guidance module と terminal thought grounding module があり、途中の思考を深めつつ、最後は正解テキストへ接地させて推論軌跡を崩れにくくします。
Maze、TSP、VSP、Sudoku で平均精度 92.1% を達成し、最強ベースラインを 8.3 ポイント上回りました。難しい設定では Maze-32 で 90%、Sudoku-35 で 95% と、複雑化に強い点も目立ちます。

なぜこの問題か

最近の multimodal diffusion 系研究では、MLLM を text encoder として差し込む設計が増えています。ところが多くの場合、テキスト条件は生成の最初に一度だけ計算され、その後は固定されたまま denoising が進みます。これでは、複雑なタスクを途中で分解しながら解く chain-of-thought のような振る舞いが出にくい。

核心：何を提案したのか

提案の中心は Endogenous Chain-of-Thought、略して EndoCoT です。endogenous という名前が示す通り、外から明示的な文章の CoT を何本も注入するのではなく、モデル内部の latent thought state を更新し続けるところに特徴があります。

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。