タグ: cs.RO | Cog AI Archive

AI研究 2026-03-21

NavTrust：壊れたセンサーと壊れた指示で、Embodied Navigation はどこまで崩れるか

NavTrust は、視覚と言語によるナビゲーションと物体目標ナビゲーションを同じ枠組みで評価しながら、RGB、深度、指示文の破損を系統的に注入して、実世界に近い条件でどれだけ信頼性が崩れるかを測るベンチマークです。

5682 字

読む →

AI研究 2026-03-16 長文

VLMはロボットの動きの好みをどこまで読めるか：軌道選択で測る空間推論

視覚言語モデルが、ロボットの経路そのものに対する自然言語の好みをどこまで理解できるかを、軌道選択課題として系統的に測った研究です。single-query 方式と Qwen2.5-VL が強く、近接性にはかなり反応できる一方で、path style や幾何的比較にはまだ弱さが残ります。

8285 字

読む →

AI研究 2026-02-25 長文

Squint：視覚強化学習を「分」で回し、15分学習の方策をSim-to-RealでSO-101へゼロショット展開する高速SAC

Squintは、カメラ画像と自己受容情報から操作方策を学習する視覚SACで、並列シミュレーションと経験再利用を両立させつつ、学習の実時間を従来の視覚オフポリシー法・オンポリシー法より短くすることを狙った手法です。

7304 字

読む →

AI研究 2026-02-19

LSMART：現実条件を含む生涯型AGVフリート管理で、MAPF設計選択を比較評価できるオープンソース試験基盤。

LSMARTは、中央集権の生涯型フリート管理システムでAGV群を動かす状況を対象に、任意の多エージェント経路探索を現実的な実行条件（運動学、通信遅延、実行時間のばらつき）込みで評価できるオープンソースの試験基盤です。

5178 字

読む →

AI研究 2026-02-18

MeshMimic：3Dシーン再構成を組み込んで、単眼動画から地形と一体でヒューマノイド動作を学ぶ

MeshMimicは、単眼の動画から人の動きだけを取り出すのではなく、その動きが成立している地形や物体の三次元形状も同時に復元し、動作と地形の相互作用を結び付けた参照データとしてヒューマノイドの学習に使う枠組みです。

5799 字

読む →

AI研究 2026-02-18

強化学習を用いた、実行可能性が未知のパラメータ頑健回避問題の解決

安全集合を最大化して「ずっと安全」を保証したい目的と、強化学習がユーザ指定の分布に対する期待値を最適化しやすい目的のずれにより、確率は低いが本来は安全にできる状態で方策が破綻しやすくなります。 / そこで、初期状態・ダイナミクス・安全仕様を決めるパラメータ集合のうち「安全な方策が存在する部分集合」を探索で広げながら、その部分集合上で最悪条件に耐える回避方策を学習するFGEを提案しています。 / MuJoCo上の高次元回避問題の実験では、難しい初期条件において既存最良手法よりカバレッジが50%を超えて増え、最悪条件がそもそも不可能な設定でも学習が停滞しにくい方向性を示しています。

5079 字

読む →

AI研究 2026-02-18

知覚するヒューマノイド・パルクール（PHP）：Motion Matchingで人間スキル断片を連結し、深度入力の単一方策へまとめる枠組み。

少数で短い人間の高ダイナミクス動作データからでも、ヒューマノイドが視覚にもとづいて障害物コースを長時間にわたり自律走破できるようにする、モジュール型の枠組みが示されています。 / Motion Matchingを特徴空間での最近傍探索として使い、歩行・走行と原子スキルをつないで長時間の参照軌道を合成し、その参照を追従する複数の強化学習専門家を学習したうえで、DAggerと強化学習を組み合わせて深度入力の単一方策へ蒸留します。 / Unitree G1の実機で、深度センサと離散的な2次元速度指令だけを用い、約3 m/sの跳び越えや1.25 m（身長の96%）までの壁登り、60秒の連続走破、障害物の摂動に対する閉ループ適応が確認されています。

5494 字

読む →

AI研究 2026-02-18

Dex4D：生成動画から得た点追跡を条件に、シミュレーション学習だけで実機の巧緻操作へ展開するタスク非依存ポリシー。

Dex4Dは、個別タスクごとの環境設計や報酬設計を増やすのではなく、「物体を現在姿勢から目標姿勢へ動かす」という共通能力をシミュレーションで学び、実機の多様な巧緻操作へつなげる枠組みです。 / 目標は言語そのものではなく、生成動画と4D再構成から得る物体中心の3D点トラックで与え、実行中はオンライン点追跡で現在の点を更新しながら、点トラック条件付きポリシーで閉ループ制御します。 / シミュレーションと実機の広範な実験により、ファインチューニングなしのゼロショット展開、先行ベースラインに対する成功率・タスク進捗・頑健性の一貫した改善、そして新規物体や背景などへの強い汎化が報告されています。

6078 字

読む →

AI研究 2026-02-18

BPP：重要な履歴キーフレームに注目して長い文脈を扱うロボット模倣学習

ロボットが過去の出来事を覚える必要があるタスクでは、観測履歴をそのまま入力に足すだけでは学習時の履歴に含まれる偶然の手掛かりへ依存しやすく、運用時に少し軌跡がずれただけで未学習の履歴に遭遇して失敗が連鎖しやすいと分析されています。

5868 字

読む →

AI研究 2026-02-15

視覚・言語・行動の整合性のためのスケーリング検証：ポリシー学習のスケーリングを超える効果の立証

汎用ロボットの実現を阻む「意図と行動のギャップ」を解消するため、本研究はポリシー学習の強化ではなく、推論時の検証（テスト時スケーリング）を拡張する新フレームワーク「CoVer-VLA」を提案しました。

5769 字

読む →

生成AI研究を、要点から追う。

最新の記事

NavTrust：壊れたセンサーと壊れた指示で、Embodied Navigation はどこまで崩れるか

VLMはロボットの動きの好みをどこまで読めるか：軌道選択で測る空間推論

Squint：視覚強化学習を「分」で回し、15分学習の方策をSim-to-RealでSO-101へゼロショット展開する高速SAC

LSMART：現実条件を含む生涯型AGVフリート管理で、MAPF設計選択を比較評価できるオープンソース試験基盤。

MeshMimic：3Dシーン再構成を組み込んで、単眼動画から地形と一体でヒューマノイド動作を学ぶ

強化学習を用いた、実行可能性が未知のパラメータ頑健回避問題の解決

知覚するヒューマノイド・パルクール（PHP）：Motion Matchingで人間スキル断片を連結し、深度入力の単一方策へまとめる枠組み。

Dex4D：生成動画から得た点追跡を条件に、シミュレーション学習だけで実機の巧緻操作へ展開するタスク非依存ポリシー。

BPP：重要な履歴キーフレームに注目して長い文脈を扱うロボット模倣学習

視覚・言語・行動の整合性のためのスケーリング検証：ポリシー学習のスケーリングを超える効果の立証