視覚言語モデルが、ロボットの経路そのものに対する自然言語の好みをどこまで理解できるかを、軌道選択課題として系統的に測った研究です。single-query 方式と Qwen2.5-VL が強く、近接性にはかなり反応できる一方で、path style や幾何的比較にはまだ弱さが残ります。
ロボットが物理的な世界で人間と円滑に相互作用し、様々なタスクにおいて効果的な支援を提供するためには、周囲の環境における物体間の空間的な関係性を正確に理解する空間推論の能力が不可欠です。近年、インターネット規模の膨大なデータから豊富な意味的知識を獲得した基盤モデル、特に視覚言語モデル(VLM)や大規模言語モデル(LLM)が、自然言語の理解と視覚的な推論を模倣する能力を示しており、ユーザーがロボットに対して直感的に指示を与えるためのインターフェースとして大きな期待を集めています。
本研究の核心は、視覚言語モデル(VLM)が持つ自然言語処理能力と空間推論能力を、ロボットの動作計画パイプラインに直接的に統合するための新しいアプローチを提案し、その有効性を体系的に評価することにあります。具体的には、ユーザーが自然言語で表現する「ロボットの動きに関する好み」をVLMに解釈させ、複数の動作候補の中から最適なものを視覚的に選択させるというフレームワークを構築しました。
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related