モバイルアプリの頻繁な更新で起きる「外観ドリフト」と「ワークフロードリフト」に対し、機能的な意味やタスク意図の不変性に注目し、視覚的特徴を機能へ結びつける「定常メモリ」と、操作手順を抽象化して保持する「手続きメモリ」の二層構造を導入しています。 / 成功した実行軌跡から知識を自動抽出して更新する動的進化メカニズムを備え、エビングハウスの忘却曲線に着想を得たランク付けで、有用な知識を優先保持しながらアプリ進化への適応を継続できるようにしています。 / AndroidWorld などのオンライン環境と複数のオフラインベンチマークで既存のメモリ拡張型エージェントを上回り、未知アプリや未知ドメインへの移行時にも性能低下を抑えられることを示しています。
モバイル向け GUI エージェントは自然言語の指示から多段階の操作を自律実行できますが、実運用ではアプリの更新が最大の敵になります。見た目だけが変わる更新もあれば、ボタンの配置や遷移順序そのものが組み替わる更新もあり、過去データで学習した操作方針がすぐ陳腐化します。ここで本当に必要なのは、見た目の違いに振り回されず、UI 要素の機能とタスク意図の安定した部分を保持することです。
本研究では、インターフェースの外観や手順が変化しても、その背後にある「機能的な意味」と「タスクの意図」は根本的に安定しているという洞察に基づき、メモリ駆動型の適応型エージェントフレームワーク「MAGNET」を提案した。このフレームワークの核心は、二つの異なるレベルで安定性を活用するデュアルレベル・メモリ構造にある。 一つ目は「定常メモリ(Stationary Memory)」である。これは、多様な視覚的特徴を不変の機能的意味に結びつける役割を果たす。例えば、アイコンの形が変わっても「検索」という機能は変わらないため、視覚的なパッチと機能説明をペアで保持することで、外観の変化に左右されない堅牢なアクションの接地(グラウンディング)を可能にする。二つ目は「手続きメモリ(Procedural Memory)」である。これは、ワークフローが再編されても変わらない高レベルのタスク目標を捉える。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related