継続更新

MemCtrl: MLLMを能動的メモリコントローラーとして活用するエンボディドエージェント向け新手法

エンボディドエージェント(身体性を持つAI)において、マルチモーダル大規模言語モデル(MLLM)のコンテキストウィンドウの制限や計算資源の制約を解決するため、観測情報をリアルタイムで選別して保存・破棄を判断する「MemCtrl」という新しいフレームワークが提案されました。

MemCtrl: MLLMを能動的メモリコントローラーとして活用するエンボディドエージェント向け新手法 の図解
論文図解

TL;DR(結論)

エンボディドエージェント(身体性を持つAI)において、マルチモーダル大規模言語モデル(MLLM)のコンテキストウィンドウの制限や計算資源の制約を解決するため、観測情報をリアルタイムで選別して保存・破棄を判断する「MemCtrl」という新しいフレームワークが提案されました。 この手法は、凍結されたMLLMのバックボーンに「メモリヘッド($\mu$)」と呼ばれる軽量なバイナリ分類器を付加することで、エージェントが探索中にどの情報を記憶に残すべきかを能動的に決定し、冗長なデータを排除してメモリ効率と意思決定の精度を向上させます。 実験では、Qwen2.5-VLやGemma-3といった比較的小規模なモデルに適用した結果、EmbodiedBenchにおいて平均約16%、特定の複雑な指示では20%以上の性能向上が確認され、特に長期間のタスクや複雑なナビゲーションにおいて高い効果を発揮することが示されました。

なぜこの問題か

身体性を持つAI(Embodied AI)の究極の目標は、多様な環境や指示に対して一貫して高い成功率で動作する汎用的なエージェントを開発することにあります。現在の主流なアプローチは、大規模な基盤モデルを利用してタスク解決の枠組みを構築することですが、これらのモデルは膨大なトレーニングコストを必要とし、未知のリアルタイム環境への迅速な適応が困難であるという課題を抱えています。特にロボティクス分野では、エッジデバイス上での計算能力が限られているため、巨大なモデルを微調整(ファインチューニング)することは現実的な解決策とは言えません。 代替案として、基盤モデルと過去の経験や反省を蓄積するメモリバンクを組み合わせるモジュール式のシステムが検討されていますが、ここでもMLLMのコンテキストウィンドウのサイズ制限が大きな壁となります。既存の検索拡張生成(RAG)などの手法は、メモリを巨大なオフラインストレージとして扱う傾向があり、リアルタイムで動作し、かつメモリや計算資源に厳しい制約があるエンボディドエージェントにとっては非効率的です。…

核心:何を提案したのか

本論文では、小規模なMLLMの意思決定能力を向上させるための転送可能なメモリ拡張スキームである「MemCtrl」を提案しています。このフレームワークの最大の特徴は、凍結されたMLLMバックボーンの上に「メモリヘッド($\mu$)」と呼ばれる学習可能な軽量モジュールを導入した点にあります。このメモリヘッドは、現在の観測情報をメモリに保存するか、あるいは破棄するかを判断するゲート(門番)として機能します。これにより、エージェントは探索を行いながらリアルタイムでメモリの剪定(プルーニング)を行うことが可能になります。…

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む