CUA-Skillは、人間がコンピュータを操作する際の知識を、再利用可能な「スキル」として構造化した大規模なライブラリであり、Windows上の多様なアプリケーションに対応するパラメータ化された実行グラフと構成グラフを備えている。
CUA-Skillは、人間がコンピュータを操作する際の知識を、再利用可能な「スキル」として構造化した大規模なライブラリであり、Windows上の多様なアプリケーションに対応するパラメータ化された実行グラフと構成グラフを備えている。このスキル基盤を活用するCUA-Skill Agentは、大規模言語モデルを用いた動的なスキル検索、引数の具体化、メモリを活用した失敗からの回復機能を備え、複雑で長期的なタスクを効率的かつ堅牢に遂行することが可能である。WindowsAgentArenaベンチマークにおいて、従来手法を大幅に上回る57.5%という最高水準の成功率を達成し、軌跡生成においても76.4%という極めて高い成功率を記録したことで、実用的なデジタルアシスタント構築に向けた強力な基盤としての有効性が実証された。
コンピュータ操作エージェント(CUA)は、ドキュメント編集、ウェブナビゲーション、データ分析といった現実世界のデスクトップタスクを自律的に完了することを目指している。しかし、既存のシステムには解決すべき大きな課題が存在し、スケーリングが困難であることや、人間のパフォーマンスと比較して依然として大きな差があることが指摘されている。この限界の主な要因は、人間がグラフィカルユーザインタフェース(GUI)とどのように対話し、それらのスキルをどのように活用するかという知見を捉えた、再利用可能で構造化されたスキルの抽象化が欠如していることにある。既存のアプローチの多くは、デスクトップでの対話を低レベルなアクションの単純な羅列としてモデル化しており、エージェントは共通のワークフローを一から再発見することを強いられている。このような手法では、動的なUI状態を跨いで数十の相互依存するアクションを実行する必要がある長期的なタスクにおいて、接地や計画、実行の小さなエラーが蓄積し、最終的な成功率が著しく低下する脆さがある。 対照的に、人間によるコンピュータの使用は、本質的に再利用可能な手続き的知識を中心に構造化されている。…
本研究では、デスクトップコンピュータの使用のために設計された初の体系的なエージェントスキルライブラリである「CUA-Skill」を提案している。CUA-Skillは、人間のコンピュータ操作に関する知識を、パラメータ化された実行グラフおよび構成グラフと結合された再利用可能なスキルとしてエンコードするものである。これにより、高レベルなユーザーの意図と低レベルな対話プリミティブの間の構造化された中間層が形成される。このライブラリは、一般的なWindowsアプリケーションを網羅する、慎重に設計された数百の原子的なスキルで構成されており、スケーラブルで信頼性の高いエージェント開発のための実用的なインフラストラクチャおよびツール基盤として機能する。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related