AI研究 2026-02-01 タグ: cs.AI, cs.RO

EmboCoach-Bench: 身体性AIエージェントの自律的なロボット開発能力を評価するベンチマーク

EmboCoach-Benchは、大規模言語モデル（LLM）を基盤としたエージェントが、ロボットの制御ポリシーを自律的に設計・実装・最適化する能力を評価するための、世界初のプロジェクトレベルのベンチマークである。

論文図解

TL;DR（結論）

EmboCoach-Benchは、大規模言語モデル（LLM）を基盤としたエージェントが、ロボットの制御ポリシーを自律的に設計・実装・最適化する能力を評価するための、世界初のプロジェクトレベルのベンチマークである。ManiSkillやRoboTwinを含む4つの主要なシミュレーション環境における32種類の多様なタスクを通じ、報酬関数の設計やモデル構築、デバッグといった一連のエンジニアリング工程を、環境からのフィードバックに基づき反復的に実行する能力を厳密に測定する。検証の結果、自律エージェントは人間が設計したベースラインを平均で26.5%上回る成功率を達成し、深刻な失敗状態からでも自己修正によって性能を劇的に回復できることが実証され、労働集約的な手作業に依存しないロボット開発の自動化への道筋を示した。

なぜこの問題か

身体性AI（Embodied AI）の分野は、高精度なシミュレーション技術と大規模なデータ収集の進展により、汎用的なロボットシステムの構築に向けて急速に進化している。現在、物理的知能における転換期を迎えており、特定のタスクに限定されない基盤モデルが登場し始めている。しかし、これらの知能を現実世界の無限に多様なタスクへと拡張する際、人間による労働集約的な監視や調整が深刻なボトルネックとなっている。具体的には、複雑な報酬関数の設計から、異なるバックエンドにまたがるハイパーパラメータの微調整に至るまで、専門家による高度な手作業が必要不可欠である。最先端のVision-Language-Action（VLA）モデルであっても、特定のハードウェアやタスクに適応させるためには、強化学習や教師あり微調整といった工程で、人間がフィードバック信号や安全境界を設計しなければならない。特にヒューマノイドロボットのような多自由度のプラットフォームでは、移動の安定性と操作の精度を両立させるために、緻密な報酬設計が求められる。また、データ駆動型のアプローチにおいても、教師ポリシーの生成や学習環境の構築に多大な労力が費やされている。…

核心：何を提案したのか

本研究では、LLMエージェントがプロジェクトレベルで身体性AIの開発を自律的に遂行できるかを評価するベンチマーク「EmboCoach-Bench」を提案した。このフレームワークは、実行可能なコードをユニバーサルなインターフェースとして位置づけ、静的なコード生成を超えた動的なクローズドループのワークフローを評価対象としている。具体的には、ManiSkill、RoboTwin、Robomimic、MetaWorldという4つの主要なシミュレーションプラットフォームから厳選された32のタスクで構成されている。これらのプラットフォームは、物理エンジンの堅牢性とコミュニティでの普及度から選定されており、現実的な物理的相互作用の課題を再現している。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。