AI研究 2026-03-17 タグ: paper, arxiv

Relevanceに基づいて「必要な知覚だけ動かす」：マルチモーダル逐次知覚のスケジューリング設計

人間と協働するロボットでは、物体検出や姿勢推定など複数の知覚モジュールを毎フレーム動かすと遅延が蓄積し、逐次処理の現場ではむしろ全体性能を落とします。提案手法は、前フレームの出力・動き・relevance を使って「今どのモジュールを起動すべきか」を reward ベースで判断し、不要なモジュールは推定でつなぐ軽量スケジューリングです。実験では通常の並列パイプライン比で遅延を最大27.52%削減し、MMPose の activation recall を最大72.73%改善しつつ、keyframe accuracy も最大98%に達しました。

論文図解

TL;DR（結論）

人間と協働するロボットでは、物体検出や姿勢推定など複数の知覚モジュールを毎フレーム動かすと遅延が蓄積し、逐次処理の現場ではむしろ全体性能を落とします。
提案手法は、前フレームの出力・動き・relevance を使って「今どのモジュールを起動すべきか」を reward ベースで判断し、不要なモジュールは推定でつなぐ軽量スケジューリングです。
実験では通常の並列パイプライン比で遅延を最大27.52%削減し、MMPose の activation recall を最大72.73%改善しつつ、keyframe accuracy も最大98%に達しました。

なぜこの問題か

人間とロボットが同じ場で協働する場面では、知覚は単に「見えていればよい」では済みません。ロボットは人の位置、姿勢、周囲の物体、作業文脈などを継続的に追いながら、その時々に適切な支援を行う必要があります。そのため実運用の知覚系は、物体検出、姿勢推定、場合によっては音声や文脈理解まで含む複数モジュールを同時に走らせる構成になりがちです。

核心：何を提案したのか

提案の中心は、multimodal streaming perception のための perception scheduling framework です。各フレームで利用可能なモジュールを全部回すのではなく、前フレームまでの出力とシーン状態から、その時点で必要なモジュールだけを選んで起動します。不要と判断されたモジュールは単純に欠落扱いにするのではなく、運動モデルやフィルタなどの軽量推定で出力を補い、ストリームを切らさないようにします。

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。