クリック位置を外しただけで、支払い承認のような取り返しのつかない操作が走ったらどうでしょうか。 しかもその瞬間、システムは迷いなく「成功した体」で先へ進んでしまうかもしれません。 GUIグラウンディングの怖さは、精度不足そのものより「間違えるときに黙って実行してしまう」ことにあります。
GUIグラウンディングは、自然言語の指示を「画面上の実行可能な座標」に変換し、GUI操作を自動化するための要素です。 うまくいけば「このボタンを押して」と言うだけで、画面上のクリック位置まで落とし込めます。つまり、言葉と視覚をつないで“座標”という実行形式に変換することが中核になります。
論文が提案するのは SafeGround です。 既存の最先端GUIグラウンディングモデルに“後付け”で組み込み、モデル内部に触れずに、リスクを意識した予測を可能にする不確実性フレームワークとして位置づけられています。ここでの狙いは、モデルを作り替えることではなく、運用の意思決定を安全側に寄せる“追加レイヤ”を与えることにあります。
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related