最近のモバイルアプリに多い「隠されたインタラクション(長押しやスワイプなど、視覚的手がかりのない操作)」を検出するための新データセット「GhostUI」が提案されました。このデータセットで微調整された視覚言語モデル(VLM)は、隠れた操作の予測や操作後の画面推論において、ベースラインを上回る性能を示しました。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related