NaVIDAは、視覚言語ナビゲーション(VLN)のための新手法です。行動が視覚的な変化をどう引き起こすか(因果関係)を学習させる「チャンクベースの逆ダイナミクス」を導入しました。これにより、より正確な予測とエラー蓄積の抑制を実現し、既存の最先端手法よりも少ないパラメータ数(3B対8B)で優れた性能を達成しました。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related