継続更新

Continual GUI Agents:変化し続けるデジタル環境に適応するGUIエージェント

デジタル環境は新しいドメインや解像度の導入により常に変化しており、固定されたデータセットで学習した従来のGUIエージェントは性能が低下するという課題があります。 本研究では、変化する環境下で継続学習を行う「Continual GUI Agents」という新しいタスクと、多様な相互作用点と領域のアンカリングを強化する報酬枠組み「GUI-AiF」を提案しました。 検証の結果、提案手法はScreenSpot-V1、V2、Proの各ベンチマークにおいて、既存の教師あり微調整や強化学習ベースの手法を上回る世界最高水準の性能を達成しました。

Continual GUI Agents:変化し続けるデジタル環境に適応するGUIエージェント の図解
論文図解

TL;DR(結論)

デジタル環境は新しいドメインや解像度の導入により常に変化しており、固定されたデータセットで学習した従来のGUIエージェントは性能が低下するという課題があります。 本研究では、変化する環境下で継続学習を行う「Continual GUI Agents」という新しいタスクと、多様な相互作用点と領域のアンカリングを強化する報酬枠組み「GUI-AiF」を提案しました。 検証の結果、提案手法はScreenSpot-V1、V2、Proの各ベンチマークにおいて、既存の教師あり微調整や強化学習ベースの手法を上回る世界最高水準の性能を達成しました。

なぜこの問題か

現代のGUIエージェントは、自然言語の指示に従ってアイコンのクリックや項目の特定など、様々なデジタルアプリケーション上での操作を自動化することを目的としています。このプロセスの核心は「グラウンディング」と呼ばれる技術であり、テキストによる指示をインターフェース上の正確なピクセル座標にマッピングする能力が求められます。しかし、現実世界のデジタル環境は常に流動的であり、時間の経過とともに新しいGUIデータが次々と到着します。例えば、OSのアップデートに伴って新しいUI要素やレイアウトが登場したり、モバイルOSからデスクトップOS、あるいはウェブOSへとプラットフォームを切り替えたりする必要が生じます。 さらに、デバイスのアップグレードやカスタマイズによって、画面解像度が1080pから4Kへと変化する場合もあります。従来のGUIエージェントは、多様なUIアプリケーションを含む固定されたデータセットを用いて、教師あり微調整(SFT)や強化学習による微調整(RFT)で訓練されてきました。…

核心:何を提案したのか

本研究では、変化し続けるデジタル環境においてGUIエージェントが継続的に学習を行うための新しいタスク「Continual GUI Agents」を定義しました。このタスクでは、異なるUIドメイン間での学習(ドメインの流動性)と、異なる解像度下での学習(解像度の流動性)という2つの主要なシナリオを設定しています。そして、この課題を解決するために、流動的な環境下でのアンカリングを実現する新しい強化学習フレームワーク「GUI-AiF(GUI-Anchoring in Flux)」を提案しました。 GUI-AiFの最大の特徴は、エージェントが特定の静的なタスクの座標やスケールに過剰適合することを防ぎ、未知の環境への適応力を高めるための2つの新しい報酬メカニズムを導入した点にあります。一つ目は「流動的アンカリングポイント報酬(APR-iF)」であり、これは予測される相互作用点の多様性を促すことで、特定の座標への偏りを軽減します。…

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む