スマートフォン操作を自動化するモバイルエージェントが、未知のアプリや複雑なタスクに直面した際の知識不足を解消するため、実行中の不確実性を「好奇心スコア」として数値化し、外部知識を動的に取得するフレームワークを提案した。
スマートフォン操作を自動化するモバイルエージェントが、未知のアプリや複雑なタスクに直面した際の知識不足を解消するため、実行中の不確実性を「好奇心スコア」として数値化し、外部知識を動的に取得するフレームワークを提案した。エージェントの予測と実際の画面遷移の乖離をベイズ的な驚きとして測定し、スコアが閾値を超えた際にドキュメントやコードリポジトリ、過去の実行履歴から情報を抽出し、機能的意味論やインターフェースの対応関係を構造化した「AppCard」として整理してエージェントの推論プロセスに統合する。AndroidWorldベンチマークにおいて、GPT-5との組み合わせで成功率88.8%という最高水準を達成し、特に複数ステップを要するタスクやアプリケーションを跨ぐ操作において、計画の信頼性と実行の安定性を大幅に向上させ、従来手法と比較して平均6ポイントの性能改善を実現した。
モバイルエージェントは、自然言語による指示からユーザーの意図を汲み取り、スマートフォンの操作を自動化することを目指している。近年のマルチモーダル大規模言語モデルの進展により、対話能力やタスク理解は向上したが、実際の運用においては依然として重要な課題が残されている。特に、複雑なアプリケーションや未経験の環境において、エージェントはアプリケーション固有の機能的知識を欠いていることが多く、これが計画の誤りやツールの不適切な呼び出しを招いている。既存の手法には大きく分けて二つの流れがある。一つは特定のアプリケーションに対する教師あり微調整や強化学習を行うアプローチだが、これらは学習データに含まれない未知のアプリへの汎化性能が低く、インターフェースの変更に対して脆弱である。もう一つは汎用的なエージェントフレームワークの構築だが、これらはアプリケーションの深い機能的知識を十分に保持していないため、APIの呼び出しミスや引数の設定ミスといったエラーが頻発する。このような知識の不完全性は、タスクの成功率を低下させるだけでなく、実行プロセス全体を不安定にする要因となっている。…
本研究では、モバイルエージェントの実行時における不確実性を「好奇心」として定式化し、必要に応じて外部知識を動的に取り入れる新しいフレームワークを提案している。この手法の核心は、エージェントが自身の知識不足を自覚し、その不足分を補うためにドキュメントやソースコードから情報を取得する仕組みにある。具体的には、実行中の予測と実際の観察結果の乖離を「好奇心スコア」として計算し、このスコアが一定の閾値を超えた際に外部検索をトリガーする。取得された情報は「AppCard」と呼ばれる構造化された形式に整理される。AppCardは、アプリケーションごとに作成されるモジュール化された知識ユニットであり、以下の4つの主要なコンポーネントで構成される。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related