継続更新

Infinite-World:ポーズフリーな階層的メモリによるインタラクティブな世界モデルの1000フレームホライゾンへのスケーリング

Infinite-Worldは、現実世界の複雑な環境において1000フレームを超える長期的な視覚的一貫性を維持できる、堅牢なインタラクティブ世界モデルです。階層的ポーズフリーメモリ圧縮器(HPMC)により、過去の情報を固定のメモリ予算内に再帰的に凝縮することで、計算コストを抑えつつ幾何学的な事前知識なしで長期的な空間的一貫性を実現しました。不確実性を考慮したアクションラベル付けと、30分程度の高密度な再訪問データセットを用いた学習戦略により、ノイズの多い現実の動画データからでも正確な操作性とループクローズ能力を効率的に獲得することに成功しました。

Infinite-World:ポーズフリーな階層的メモリによるインタラクティブな世界モデルの1000フレームホライゾンへのスケーリング の図解
論文図解

TL;DR(結論)

Infinite-Worldは、現実世界の複雑な環境において1000フレームを超える長期的な視覚的一貫性を維持できる、堅牢なインタラクティブ世界モデルです。階層的ポーズフリーメモリ圧縮器(HPMC)により、過去の情報を固定のメモリ予算内に再帰的に凝縮することで、計算コストを抑えつつ幾何学的な事前知識なしで長期的な空間的一貫性を実現しました。不確実性を考慮したアクションラベル付けと、30分程度の高密度な再訪問データセットを用いた学習戦略により、ノイズの多い現実の動画データからでも正確な操作性とループクローズ能力を効率的に獲得することに成功しました。

なぜこの問題か

世界モデルは、現実をシミュレートし、エージェントと環境の対話的な制御を容易にする能力があるため、自動運転やロボット工学、空間知能などの多様な分野で注目を集めています。特に拡散モデルに基づいたビデオ生成技術の進歩により、物理世界をモデリングする可能性が示されてきました。しかし、既存のモデルの多くは、完璧な正解データが得られるシミュレーションエンジンで生成された合成データに依存しています。現実世界の動画データにこれらのモデルを適用しようとすると、「リアリティ・ギャップ」と呼ばれる大きな課題に直面します。 第一の課題は、不正確なポーズ推定と信頼性の低い制御です。シミュレーターとは異なり、現実の動画からカメラの外部パラメータを取得するには推定が必要であり、これには必然的に誤差が含まれます。このポーズ推定の不正確さが、アクションと応答のマッピングを困難にし、操作性を低下させます。第二の課題は、視点の再訪問データの不足です。自然な動画ストリームは主に「線形的」であり、カメラが以前に訪れた場所に戻ることは稀です。…

核心:何を提案したのか

本研究では、1000フレーム以上の長期にわたって一貫した状態を維持できるインタラクティブな世界モデル「Infinite-World」を提案しました。このモデルの核心は、計算コストを一定に保ちながらコンテキストをモデリングする「階層的ポーズフリーメモリ圧縮器(HPMC)」と、ノイズの多い現実の軌跡から堅牢な動作制御を学習するための「不確実性を考慮したアクションラベル付けモジュール」にあります。これらの技術により、外部のポーズメタデータに依存することなく、純粋にデータ駆動型の方法で長期的な空間的一貫性を実現しました。 HPMCは、過去の潜在変数を再帰的に蒸留し、固定されたメモリ予算内に収めることで、計算負荷の増大を防ぎます。…

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む