EmboCoach-Benchは、LLMエージェントがロボットの制御ポリシーを自律的に設計・最適化する能力を評価するベンチマークです。32種類のタスクを通じ、コード生成からデバッグ、環境フィードバックを用いた反復的な改善までを検証します。自律エージェントが人間のベースラインを上回る成果を出し、自己修正能力を持つことを示しています。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related