継続更新

OmegaUse: 自律的なタスク実行のための汎用GUIエージェントの構築

OmegaUseは、モバイルとデスクトップの両方のプラットフォームにおいて自律的なタスク実行を実現するために設計された、Mixture-of-Experts(MoE)アーキテクチャに基づく汎用的なグラフィカルユーザインターフェース(GUI)エージェントモデルである。

OmegaUse: 自律的なタスク実行のための汎用GUIエージェントの構築 の図解
論文図解

TL;DR(結論)

OmegaUseは、モバイルとデスクトップの両方のプラットフォームにおいて自律的なタスク実行を実現するために設計された、Mixture-of-Experts(MoE)アーキテクチャに基づく汎用的なグラフィカルユーザインターフェース(GUI)エージェントモデルである。このモデルは、高品質なデータ構築パイプラインと、教師あり微調整(SFT)およびグループ相対方策最適化(GRPO)を組み合わせた二段階の学習手法を導入することで、画面上の空間的な位置特定能力と複雑なタスクの逐次的な計画立案能力を大幅に向上させている。評価においては、ScreenSpot-V2で96.3%という過去最高の精度を記録したほか、中国語Android環境を対象としたChiM-NavやUbuntuデスクトップ環境のUbu-Navを含む新しいベンチマークOS-Navにおいて、優れたクロスプラットフォーム性能と実用的なタスク完遂能力を実証することに成功した。

なぜこの問題か

グラフィカルユーザインターフェース(GUI)エージェントは、人間がコンピュータを操作するのと同様に、画面の視覚情報を読み取り、クリックやタイピングなどのアクションを実行することで、複雑なタスクを自動化し生産性を向上させる可能性を秘めている。しかし、現在のGUIエージェントには、性能の限界、学習データの品質不足、そして多様なデジタルエコシステムを網羅する評価指標の欠如という三つの重要な課題が依然として存在している。特にデータの品質に関しては、HTMLやアクセシビリティ(A11y)ツリーから自動的に抽出されたラベルに、実際の画面表示とのレンダリングのずれが生じることが多く、これが学習のノイズとなっている。このずれは、バウンディングボックスの誤整合や曖昧なテキスト説明を引き起こし、エージェントの空間認識能力や意思決定の精度を著しく低下させる要因となる。また、既存のナビゲーションデータセットには、不正確な実行軌跡や過剰な冗長アクションが含まれていることが多く、長期的な計画立案を学習するための信号としては不十分である。…

核心:何を提案したのか

本研究では、モバイルとデスクトップの両方で自律的なタスク実行をサポートする汎用GUIエージェント「OmegaUse」を提案した。OmegaUseは、計算効率と推論能力を両立させるために、Mixture-of-Experts(MoE)バックボーンを採用している。この設計により、大規模なパラメータを持つモデルの推論能力を維持しつつ、特定のタスクに対してはパラメータの一部のみを活性化させることで、計算コストを大幅に削減している。モデルの構築にあたっては、高品質なデータ構築パイプラインと、デカップリングされた二段階の学習パラダイムを導入した。…

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む