3Dシーン内で人間が機能的にインタラクションする様子を生成する、学習不要のフレームワーク「FunHSI」の提案。任意のタスク指示に基づき、シーン内の機能的要素を特定し、接触グラフを用いて相互作用をモデル化する。視覚言語モデルを活用して3D人体・手姿勢を推定し、物理的な妥当性を最適化することで、多様な屋内・屋外シーンで自然な動作生成を実現した。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related