継続更新

ALRM: ロボット操作のためのエージェント的LLM

ALRMは、大規模言語モデル(LLM)をロボット操作の計画と実行に統合する新しいエージェント型フレームワークであり、ReAct形式の推論ループを通じて、タスクの分解、実行結果の反映、および計画の修正を動的に行う仕組みを提供します。

ALRM: ロボット操作のためのエージェント的LLM の図解
論文図解

TL;DR(結論)

ALRMは、大規模言語モデル(LLM)をロボット操作の計画と実行に統合する新しいエージェント型フレームワークであり、ReAct形式の推論ループを通じて、タスクの分解、実行結果の反映、および計画の修正を動的に行う仕組みを提供します。 このシステムは、Pythonコードを直接生成して実行するCode-as-Policy(CaP)と、対話的なツール呼び出しを利用するTool-as-Policy(TaP)という2つの相補的な実行モードをサポートしており、柔軟性と速度の両立を図っています。 56種類の多様な言語指示を含む新しいシミュレーションベンチマークでの評価により、Claude-4.1-Opusが商用モデルで最高性能を示し、Falcon-H1-7Bがオープンソースモデルの中で最も効率的かつ高精度であることが確認されました。

なぜこの問題か

従来のロボットシステムは、あらかじめプログラムされた明示的なタスク仕様に基づいて構築されており、制御ロジックは手動で記述された動作としてエンコードされてきました。 これらのシステムは、ROS(Robotic Operating System)やMoveItといったミドルウェアに依存して知覚や計画を調整していますが、特定のドメインに限定されがちで、新しいタスクへの汎用性や環境変化への動的な適応能力に欠けるという課題があります。 近年、大規模言語モデル(LLM)の発展により、自然言語の指示解釈やコード合成、ツール利用、象徴的推論といった能力がロボット制御に応用され始めていますが、既存のアプローチには依然として限界が存在します。 一つ目の限界は、従来のLLMベースの手法がモジュール化されたエージェント実行メカニズムを欠いていることが多く、閉ループ方式で結果を反映したり行動を修正したりする能力が制限されている点です。 二つ目の限界は、既存のロボット操作ベンチマークが低レベルの制御に焦点を当てており、多段階の推論や言語的なバリエーションを体系的に評価できていない点にあります。…

核心:何を提案したのか

本論文では、ロボット操作のためのLLM駆動型エージェントフレームワークであるALRM(Agentic LLM for Robot Manipulation)を提案しています。 ALRMの最大の特徴は、タスクの計画と実行を専門のエージェントに分担させ、ReActスタイルの推論ループを導入することで、環境からのフィードバックに基づいた動的な計画修正を可能にした点です。 このフレームワークは、タスクプランナーエージェント、タスクエグゼキューターエージェント、およびAPIサーバーの3つの主要モジュールで構成されています。…

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む