CUA-Skillは、人間のコンピュータ操作知識を「実行グラフ」と「構成グラフ」を備えた再利用可能なスキルとして体系化した大規模なライブラリであり、複雑なデスクトップ作業を構造化された中間層として定義することで、エージェントの操作を効率化します。
CUA-Skillは、人間のコンピュータ操作知識を「実行グラフ」と「構成グラフ」を備えた再利用可能なスキルとして体系化した大規模なライブラリであり、複雑なデスクトップ作業を構造化された中間層として定義することで、エージェントの操作を効率化します。 このスキル基盤を活用するCUA-Skill Agentは、大規模言語モデルを用いた動的なスキル検索、引数の自動設定、および過去の実行履歴を考慮したメモリベースの失敗回復機能を備えており、従来の低レベルな操作の羅列に頼る手法よりも高い堅牢性と汎用性を実現しました。 WindowsAgentArenaベンチマークにおいて、57.5%という最先端の成功率を達成し、軌跡生成タスクでも従来手法を1.7倍から3.6倍上回る76.4%の成功率を記録するなど、実用的なコンピュータ操作エージェント開発のための強力かつスケーラブルな基盤を提示しています。
コンピュータ操作エージェント(CUA)は、ドキュメントの編集、ウェブの閲覧、データ分析、システム設定といった現実世界のデスクトップタスクを自律的に完了することを目指していますが、既存のシステムは拡張が難しく、人間のパフォーマンスに大きく遅れをとっています。 現在の多くのアプローチにおける根本的な制限は、人間がグラフィカルユーザインタフェース(GUI)とどのように相互作用し、その知識をどのように活用しているかを捉えた、再利用可能で構造化された「スキルの抽象化」が欠如していることです。 既存のシステムの多くは、デスクトップでの相互作用を低レベルなアクション(クリックやキー入力など)の単純な羅列としてモデル化しており、エージェントは共通のワークフローをタスクごとに一から再発見することを強いられています。 このような設計では、複数のアプリケーションにまたがる長期的なタスクにおいて、接地や計画、実行の段階で生じる小さな誤りが急速に蓄積し、最終的な成功率が著しく低下するという脆い挙動を招きます。…
本研究では、デスクトップコンピュータ操作のために設計された初の体系的なエージェントスキルライブラリである「CUA-Skill」を提案します。 CUA-Skillは、人間のコンピュータ操作知識を、パラメータ化された実行グラフおよび構成グラフと組み合わせた再利用可能なスキルとしてエンコードし、ユーザーの意図と低レベルな操作プリミティブの間の構造化された中間層として機能します。 このライブラリは、Microsoft Excel、Word、Edge、VS Codeといった一般的なWindowsアプリケーションを網羅する、慎重に設計された数百の原子的なスキルで構成されています。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related