AI研究 2026-02-04 タグ: cs.RO, cs.LG

PRISM: シングルパス多感覚模倣学習のためのPerformer RS-IMLE

PRISMは、拡散モデルのような反復的な計算を必要とせず、単一のパスで多感覚情報を統合して複雑な動作を生成する新しい模倣学習フレームワークである。バッチ全体での棄却サンプリング（Batch-global RS-IMLE）と線形注意機構（Performer）を組み合わせることで、リアルタイム性と多様な行動分布の表現を高い次元で両立することに成功した。実際のロボットやシミュレーションにおいて、従来の拡散ポリシーを成功率で10〜25%上回り、動作の滑らかさを20〜50倍向上させつつ、30〜50Hzの高速な閉ループ制御を実現している。

論文図解

TL;DR（結論）

なぜこの問題か

ロボットの模倣学習において、専門家の多様な振る舞いを正確に捉えつつ、実時間での制御を可能にすることは極めて重要な課題である。従来の生成的な手法である拡散モデルは、複雑な多峰性の行動分布をモデル化する能力に優れているが、推論時に数十回から百回程度の反復的なデノイジング工程を必要とするため、計算コストが高くリアルタイム展開には限界がある。フローベースの手法はサンプリングステップを削減できるものの、多峰性の忠実度に課題が残る場合があり、依然として推論時の計算負荷が無視できない。また、既存の模倣学習モデルは、RGB画像、深度、触覚、音声、固有受容感覚といった複数の感覚器からの情報を効果的に統合し、一部のセンサーが欠損した状態でも堅牢に動作することが求められる。従来のIMLE（Implicit Maximum Likelihood Estimation）を用いた手法は、単一パスでの推論が可能であるが、時間的な滑らかさの欠如や、複数の行動モード間での急激な切り替わりといった不安定な挙動を示すことがあった。…

核心：何を提案したのか

本研究では、単一パスで動作シーケンスを生成可能な多感覚模倣ポリシーであるPRISM（Performer RS-IMLE for Multisensory Imitation）を提案した。 PRISMの核心は、バッチ全体での棄却サンプリング（Batch-global RS-IMLE）という新しい学習目的関数を導入し、推論時の反復計算なしに多様な行動モードをカバーできるようにした点にある。アーキテクチャ面では、時間的な多感覚エンコーダーと、線形注意機構を用いたPerformerベースのジェネレーターを組み合わせている。このエンコーダーは、RGB、深度、触覚、音声、固有受容感覚といった異なるモダリティを時間軸に沿って統合し、コンテキストトークンとして処理する。ジェネレーターは、双方向の自己注意機構とコンテキストへの交差注意機構を備えており、学習されたクエリトークンを用いて将来の行動シーケンスを一括で出力する。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。