AI研究 2026-02-01 タグ: cs.AI, cs.RO

EmboCoach-Bench: 具現化エージェント開発におけるAIエージェントの能力を評価するベンチマーク

EmboCoach-Benchは、AIエージェントがロボットの制御ポリシーを自律的に設計・最適化する能力を評価するための新しいベンチマークであり、32種類の多様なタスクと4つの主要なシミュレーション基盤を用いて、エンジニアリングの全工程を網羅的に測定します。

論文図解

TL;DR（結論）

EmboCoach-Benchは、AIエージェントがロボットの制御ポリシーを自律的に設計・最適化する能力を評価するための新しいベンチマークであり、32種類の多様なタスクと4つの主要なシミュレーション基盤を用いて、エンジニアリングの全工程を網羅的に測定します。エージェントが環境からの物理的なフィードバックを直接解釈し、コードの修正とデバッグを繰り返す「Draft-Debug-Improve」という反復的なワークフローを導入することで、従来の静的なコード生成を超えた、動的で実践的な問題解決能力を評価の軸に据えています。検証の結果、AIエージェントは人間が設計した基準を平均で26.5%上回る成功率を達成し、深刻な設計上の失敗状態からでも自律的な修正によって性能を劇的に回復できることが示され、ロボット開発の自動化に向けた高い可能性が実証されました。

なぜこの問題か

現在、物理的知能の分野は「GPTモーメント」と呼ばれる大きな転換期を迎えており、汎用的なロボットポリシーが急速に台頭しています。インターネット規模の膨大なデータセットで学習された基盤モデルは、多様なロボットの形態において優れた汎化性能を示し始めており、未知の環境でも「物理的な常識」を持って動作する未来が予見されています。しかし、これらの知能を現実世界の無限に多様なタスクへとスケールさせるためには、依然として人間による手動のエンジニアリングが極めて大きなボトルネックとなっています。最先端のVision-Language-Action（VLA）モデルであっても、特定のハードウェアに適応させるためには、報酬関数の設計やハイパーパラメータの調整といった専門家による集中的な介入が不可欠です。特に、ヒューマノイドロボットのような多自由度のプラットフォームでは、移動の安定性と操作の精度を両立させるために、複雑で緻密な報酬関数を設計しなければなりません。また、強化学習のためのデータ生成パイプラインにおいても、教師となるポリシーを作成するために人間が学習環境を苦心して構築する必要があります。…

核心：何を提案したのか

本研究では、AIエージェントによるプロジェクトレベルの具現化開発能力を評価するためのベンチマーク「EmboCoach-Bench」を提案しました。このベンチマークは、ManiSkill、RoboTwin、Robomimic、MetaWorldという4つの主要なシミュレーションプラットフォームにわたる32のタスクで構成されています。評価の焦点は、単なるコードの断片を生成することではなく、以下の3つの核心的な能力に置かれています。第一に、抽象的なアルゴリズムを具体的な環境APIと整合させ、機能的なインターフェースを確立するフルスタックの開発能力です。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。