FAEA(Frontier Agent as Embodied Agent)は、ソフトウェア開発用に設計された汎用LLMエージェントであるClaude Agent SDKを、一切の変更を加えずそのままロボット操作に適用した手法であり、事前のデモンストレーションや追加学習を必要とせずに、試行錯誤を通じたプログラム合成によって自律的にタスクを遂行する。 LIBERO、ManiSkill3、MetaWorldという3つの主要なベンチマークにおいて、特権的な環境状態を利用することでそれぞれ84.9%、85.7%、96%という高い成功率を達成し、最大100件のデモンストレーションで学習した既存の視覚・言語・行動(VLA)モデルに匹敵、あるいはそれを上回る性能を示した。 この手法は、エージェントがシミュレーション内で自律的に成功軌道を生成できるため、ロボット学習のためのデータ拡張ツールとしての実用性が高く、汎用モデルの進化やエージェント基盤の改善がそのままロボット制御の向上に直結する新しいパラダイムを提示している。
FAEA(Frontier Agent as Embodied Agent)は、ソフトウェア開発用に設計された汎用LLMエージェントであるClaude Agent SDKを、一切の変更を加えずそのままロボット操作に適用した手法であり、事前のデモンストレーションや追加学習を必要とせずに、試行錯誤を通じたプログラム合成によって自律的にタスクを遂行する。 LIBERO、ManiSkill3、MetaWorldという3つの主要なベンチマークにおいて、特権的な環境状態を利用することでそれぞれ84.9%、85.7%、96%という高い成功率を達成し、最大100件のデモンストレーションで学習した既存の視覚・言語・行動(VLA)モデルに匹敵、あるいはそれを上回る性能を示した。 この手法は、エージェントがシミュレーション内で自律的に成功軌道を生成できるため、ロボット学習のためのデータ拡張ツールとしての実用性が高く、汎用モデルの進化やエージェント基盤の改善がそのままロボット制御の向上に直結する新しいパラダイムを提示している。
現代のロボット操作システムは、特定のタスクに特化したデータや多大なエンジニアリングの努力を必要とする学習ベースのポリシーに大きく依存している。視覚・言語・行動(VLA)モデルの登場により汎用性は向上したが、依然として大量のデモンストレーションやファインチューニング、そしてカスタム実行パイプラインが必要とされる状況に変わりはない。また、これらのモデルはドメインシフトに対して脆弱であり、環境にわずかな変化が生じるだけで、成功率が95%から30%以下にまで急落することが報告されている。この脆弱性の要因としては、インターネット規模のテキストデータと比較してロボットの訓練データが圧倒的に不足していることや、テレオペレーションで収集されたデータと実際の配備条件との間の乖離が挙げられる。 これまでの研究では、言語モデルをロボット操作に統合するために、言語レベルの出力をロボットの動作に変換するカスタムパイプラインが構築されてきた。…
本研究では、汎用LLMエージェントフレームワークをそのままロボット操作に適用する「FAEA(Frontier Agent as Embodied Agent)」を提案している。FAEAの最大の特徴は、人間のエキスパートによるデモンストレーションを一切必要としない「デモンストレーションフリー」な制御を実現している点にある。これは、従来のロボット学習が「観察から学ぶ」ことを重視していたのに対し、FAEAは「実践を通じた試行錯誤」によって効果的なポリシーを発見するという、人間が新しい操作を習得するプロセスに近いアプローチを取っている。 FAEAは、ソフトウェア開発で利用されるClaude Agent SDKをそのまま利用する。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related