AI研究 2026-02-01 タグ: cs.CR, cs.AI, cs.CV

GUIGuard: プライバシー保護型GUIエージェントのための汎用フレームワーク

GUIエージェントが画面情報をリモートモデルに送信する際に生じる深刻なプライバシーリスクを解決するため、認識・保護・実行の3段階で構成される汎用フレームワーク「GUIGuard」が提案されました。

論文図解

TL;DR（結論）

GUIエージェントが画面情報をリモートモデルに送信する際に生じる深刻なプライバシーリスクを解決するため、認識・保護・実行の3段階で構成される汎用フレームワーク「GUIGuard」が提案されました。評価用データセット「GUIGuard-Bench」を用いた検証により、既存の最先端モデルでもプライバシー要素の認識精度はAndroidで13.3%、PCで1.4%にとどまり、実用上の大きな課題であることが判明しました。局所的なプライバシー保護を施してもタスク実行に必要な意味情報は維持可能であり、タスクの必要性に応じた保護戦略を導入することで、プライバシー保護と利便性の両立が可能になることが示されています。

なぜこの問題か

GUIエージェントは、コンピュータやモバイルアプリケーションの操作を自動化するために急速に進化しており、Doubao Phone Assistant、Wuying AgentBay、OpenAI Atlasなどのシステムが登場しています。これらのエージェントは、画面上のインターフェースを直接認識して対話することで、エンドツーエンドの自動化を実現していますが、個人の機密情報を含むユーザーインターフェースに頻繁にアクセスするため、重大なプライバシーリスクが生じます。特に、多くのエージェントは推論のためにスクリーンショットをリモートのクローズドソースモデルに送信する必要があり、ユーザーは機密データをブラックボックスサーバーにアップロードせざるを得ない状況にあります。ローカルでのモデル展開は依然として高価であり、パフォーマンスがリモートモデルに及ばないことが多いため、この依存関係は避けがたいものとなっています。 GUIにおけるプライバシーリスクは、他の視覚的媒体と比較してより豊富で直接的な個人情報が露出しているという特徴があります。また、リスクは対話の軌跡や文脈の連続性に強く依存するため、一連のシーンにわたる評価が必要となります。…

核心：何を提案したのか

本研究では、プライバシーを保護するGUIエージェントのための汎用的な3段階フレームワーク「GUIGuard」を提案しました。このフレームワークは、プライバシー認識、プライバシー保護、および保護下でのタスク実行という3つのフェーズに分離されています。この設計は、信頼できるローカル・リモート・ハイブリッド・サービスのパラダイムに従っており、強力な意思決定能力を持つリモートの基盤モデルの能力を活用しつつ、デバイス上のプライバシーレイヤーを導入することで、機密データの露出を最小限に抑えることを目的としています。これにより、ユーザーは生データを外部に送ることなく、高度なAIの恩恵を受けることが可能になります。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。