AI研究 2026-02-04 タグ: cs.RO, cs.AI, cs.LG

統一的ヒューマノイド全身制御のための身体性を考慮したジェネラリスト・スペシャリスト蒸留

本研究は、構造の異なる複数のヒューマノイドを単一のポリシーで制御する学習フレームワーク「EAGLE」を開発し、歩行だけでなく、しゃがむ、傾くといった多様な全身動作を、ロボットごとの報酬調整なしで実現した。

論文図解

TL;DR（結論）

本研究は、構造の異なる複数のヒューマノイドを単一のポリシーで制御する学習フレームワーク「EAGLE」を開発し、歩行だけでなく、しゃがむ、傾くといった多様な全身動作を、ロボットごとの報酬調整なしで実現した。ジェネラリストと各ロボット専用のスペシャリストの間で知識を反復的に蒸留するサイクルを導入することで、従来のクロスエンボディメント手法を上回る追従精度と、実機へのゼロショット転送が可能な堅牢性を獲得した。シミュレーション上の5機種および実世界の4機種を用いた検証により、単一の汎用ポリシーが個別機体専用のポリシーと同等以上の性能を発揮し、大規模なロボット群の効率的な制御と展開が可能であることを実証した。

なぜこの問題か

ヒューマノイドロボットの全身制御（WBC）において、強化学習を用いた手法は目覚ましい成果を上げているが、その多くは特定の単一のロボット機体に依存している。ロボットごとに動力学特性、自由度（DoF）、運動学的トポロジーが異なるため、一つの制御ポリシーを多様なヒューマノイドに直接適用することは極めて困難である。マニピュレーション（ロボットアームによる操作）の分野では、人間によるテレオペレーションを通じて大規模なデータセットを収集し、異なる機体間で汎用的なモデルを学習させる手法が成功を収めている。しかし、脚式走行のような移動制御においては、既存のコントローラーがない状態ではロボットをテレオペレーションすること自体が不可能であり、模倣学習のためのデータ収集が初期段階で停滞するという課題がある。そのため、新しいロボットを導入するたびに、トレーニングパイプライン全体をやり直し、報酬関数のパラメータを微調整する必要があり、これが展開のスピードを遅らせる要因となっている。既存の研究では、拡散モデルを用いたモーションプライアや、URDFパラメータの大規模なランダム化によってこのギャップを埋めようとする試みがある。…

核心：何を提案したのか

本研究では、身体性を考慮したジェネラリスト・スペシャリスト蒸留フレームワークである「EAGLE」を提案した。EAGLEは、反復的な蒸留ループと、統一された高次元のコマンドインターフェースを組み合わせることで、異種混合のヒューマノイド群を統合的に制御する。このフレームワークの中核となるのは、ジェネラリストポリシーから各ロボット専用のスペシャリストを派生させ、それぞれの機体で微調整を行った後、得られたスキルを再びジェネラリストに集約するサイクルである。このサイクルを性能が収束するまで繰り返すことで、ロボットごとの報酬調整を行うことなく、堅牢な全身制御ポリシーを構築することに成功した。また、従来の歩行速度指令だけでなく、ベースの高さや胴体のピッチ角を含む高次元のコマンドベクトルを導入した。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。