現代のデジタル環境は、OSの更新やデバイスの多様化、解像度の変化によって常にデータの分布が変動する「流動的(Flux)」な状態にあり、固定されたデータセットで学習した従来のGUIエージェントでは、未知のドメインや高解像度環境において性能が著しく低下するという課題がある。
現代のデジタル環境は、OSの更新やデバイスの多様化、解像度の変化によって常にデータの分布が変動する「流動的(Flux)」な状態にあり、固定されたデータセットで学習した従来のGUIエージェントでは、未知のドメインや高解像度環境において性能が著しく低下するという課題がある。 本研究では、変化し続ける環境下でエージェントが継続的に学習を行う「Continual GUI Agents」という新しいタスクを定義し、相互作用点と領域の多様性を促す独自の報酬設計(APR-iFおよびARR-iF)を備えた強化学習フレームワーク「GUI-AiF」を提案することで、過去の知識を保持しつつ新環境へ適応する手法を確立した。 検証の結果、提案手法はScreenSpot-V1、V2、およびProの各ベンチマークにおいて、従来の教師あり微調整や既存の強化学習手法を上回る性能を達成し、モバイルからデスクトップ、ウェブへのドメイン移行や、1080pから4Kへの解像度変化に伴う性能劣化を効果的に抑制できることが示された。
現代のコンピューティング環境は、新しいアプリケーションの登場、オペレーティングシステム(OS)の頻繁なアップデート、そしてデバイスの多様化によって、常にデータの分布が変化し続ける「流動的」な状態にある。従来のGUIエージェントの多くは、特定の時点で収集された静的で固定的なデータセットを用いて学習されており、このような環境を前提としたモデルは、現実世界の動的な変化に直面した際に柔軟性を欠くという深刻な問題がある。具体的には、エージェントがモバイルOSからデスクトップOS、あるいはウェブアプリケーションへとプラットフォームを移行する際、UI要素の配置、デザイン、相互作用のルールが大きく異なるため、学習済みの知識が通用しなくなる。例えば、モバイルOSはテキスト要素が多い傾向にあるのに対し、ウェブOSはアイコンを多用するなど、ドメインごとに相互作用点の特性が大きく異なる。 また、ハードウェアの進化に伴い、画面解像度が標準的な1080pから4Kへと高精細化する場合、UI要素の絶対的な座標や相対的なスケールが劇的に変化する。これにより、エージェントが正確に要素を特定する「グラウンディング」能力が損なわれ、操作ミスを誘発する原因となる。…
本研究の最大の貢献は、変化するGUI環境に適応し続けるための新しいタスク「Continual GUI Agents」を定義し、それを実現するための革新的なフレームワーク「GUI-AiF(GUI-Anchoring in Flux)」を提案したことにある。このフレームワークは、強化学習ベースの微調整(RFT)のパラダイムを拡張したものであり、エージェントが特定のタスクに過剰適合することを防ぎ、未知の環境への汎化性能を高めるための独自の報酬設計を導入している。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related