CUA-Skillは、人間がコンピュータを操作する際の手続き的知識を、再利用可能で構造化された「スキル」として体系化した大規模なライブラリであり、Windows上の多様なアプリケーションに対応する操作をパラメータ化された実行グラフと構成グラフによって定義しています。
CUA-Skillは、人間がコンピュータを操作する際の手続き的知識を、再利用可能で構造化された「スキル」として体系化した大規模なライブラリであり、Windows上の多様なアプリケーションに対応する操作をパラメータ化された実行グラフと構成グラフによって定義しています。 このスキル基盤を活用するCUA-Skill Agentは、大規模言語モデルを用いた動的なスキル検索、状況に応じた引数の自動設定、および実行履歴を保持するメモリ機能を統合しており、複雑で長期的なデスクトップタスクにおいて高い堅牢性と効率性を発揮します。 WindowsAgentArenaベンチマークでの評価では、最高57.5%という最先端の成功率を達成し、軌跡生成タスクにおいても76.4%の成功率を記録しており、従来の低レベルな操作の羅列に頼る手法と比較して、より人間に近い高度な自動化を実現する基盤となることが示されました。
コンピュータ操作エージェント(CUA)は、グラフィカルユーザインタフェース(GUI)を自律的に操作して、文書編集やデータ分析、システム設定などの現実世界のタスクを完了することを目指していますが、既存のシステムには大きな課題が存在します。現在多くのアプローチでは、デスクトップ上でのインタラクションを低レベルなアクションの単純な羅列としてモデル化しており、エージェントは共通のワークフローを一から再発見することを強いられています。このような手法では、ターゲットの特定やプランニング、実行の過程で生じる小さな誤りが連鎖的に積み重なり、最終的なタスクの成功率が著しく低下する傾向にあります。特に、複数のアプリケーションにまたがる長期的なタスクにおいては、UIの状態が動的に変化するため、固定的なアクションシーケンスでは対応が困難です。 人間はコンピュータを使用する際、アプリケーションの起動、メニューのナビゲーション、文書の書式設定といった、再利用可能な手続き的知識である「スキル」を組み合わせてワークフローを構築しています。…
本研究では、デスクトップコンピュータ操作のために設計された初の体系的なエージェント用スキルライブラリである「CUA-Skill」を提案しました。CUA-Skillは、人間のコンピュータ操作知識を、パラメータ化された実行グラフおよび構成グラフと結びついた再利用可能なスキルとしてエンコードし、高レベルなユーザーの意図と低レベルな操作プリミティブの中間層として機能します。このライブラリには、Windows上の一般的なアプリケーションを網羅する、慎重に設計された数百の原子的なスキルが含まれています。これらのスキルは、パラメータ化と構成によって数百万通り以上の実行可能なタスクバリアントに展開することが可能であり、幅広いダウンストリームアプリケーションをサポートします。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related