AI研究 2026-03-17 タグ: paper, arxiv

見えなくなっても世界は進むべきか：動画ワールドモデルの状態進行を測る StEvo-Bench

水を注ぐ、氷が溶ける、マッチが燃えるといった状態変化は、見ていなくても進む。StEvo-Bench は、その当たり前の性質を動画ワールドモデルが本当に持っているかを測るために作られたベンチマークです。評価は「隠すことに成功したか」「変化を始められたか」に加えて、「状態が進んだか」「物理的にもっともらしいか」「前後の映像がつながっているか」を分けて判定します。単に見栄えがよい動画かどうかではなく、見えない間の世界状態を保てるかを問う設計です。結果はかなり厳しく、Veo 3 や Sora 2 Pro のような強いモデルでも観測を遮ると成功率は 10% 未満、カメラ制御型モデルでは状態進行がほぼ止まります。現行の動画モデルは「観測」と「状態進行」をまだ強く結び付けて扱っている、というのが中心的な結論です。

論文図解

TL;DR（結論）

水を注ぐ、氷が溶ける、マッチが燃えるといった状態変化は、見ていなくても進む。StEvo-Bench は、その当たり前の性質を動画ワールドモデルが本当に持っているかを測るために作られたベンチマークです。
評価は「隠すことに成功したか」「変化を始められたか」に加えて、「状態が進んだか」「物理的にもっともらしいか」「前後の映像がつながっているか」を分けて判定します。単に見栄えがよい動画かどうかではなく、見えない間の世界状態を保てるかを問う設計です。
結果はかなり厳しく、Veo 3 や Sora 2 Pro のような強いモデルでも観測を遮ると成功率は 10% 未満、カメラ制御型モデルでは状態進行がほぼ止まります。現行の動画モデルは「観測」と「状態進行」をまだ強く結び付けて扱っている、というのが中心的な結論です。

なぜこの問題か

動画生成モデルを「ワールドモデル」と呼ぶなら、画面に映っている瞬間だけもっともらしければよいわけではありません。世界の内部状態が、観測の有無とは独立に進むことまで再現できて初めて、「見た目の動画生成」から「世界の進行のモデリング」へ一段進んだと言えます。たとえば、コップに水を注いでいる最中に一時的に照明を消したり、カメラを横に向けたりしても、水位はその間に上がっているはずです。現実の物理世界では当然でも、フレーム列から世界を合成するモデルにとっては難しい課題です。

核心：何を提案したのか

中心提案は StEvo-Bench というベンチマークです。狙いは、動画ワールドモデルが state evolution、つまり対象物の状態変化を「観測」から切り離して扱えるかを測ることです。設計上の要点は、動的なプロセスに対して必ず二つの制御をかけるところにあります。ひとつは変化を始めるための action control、もうひとつは途中で見えなくするための observation control です。この二段構えにより、「変化そのものを起こせなかった」のか、「見えなくなった途端に止まった」のかを分けて評価できます。

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。