生成AIが人間と効果的に協働するには意図予測が重要ですが、共通認識(コモングラウンド)のモデル化能力の欠如が制限要因となっています。本研究は、人間とAI(LVLM)の組み合わせによる対話実験を行い、LVLMが参照表現を対話的に解決する能力、特に基盤化(グラウンディング)において人間に劣るという限界を明らかにしました。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related