継続更新

Avenir-Web:グラウンディング・エキスパートの混合を用いた、人間の経験を模倣するマルチモーダルWebエージェント

現代の複雑で動的なウェブ環境において、従来の自律型エージェントが直面していた要素特定の不正確さや知識不足、長期的なタスク追跡の不安定さという3つの主要なボトルネックを解消するため、人間の経験を模倣する新しいマルチモーダルウェブエージェント「Avenir-Web」が開発されました。

Avenir-Web:グラウンディング・エキスパートの混合を用いた、人間の経験を模倣するマルチモーダルWebエージェント の図解
論文図解

TL;DR(結論)

現代の複雑で動的なウェブ環境において、従来の自律型エージェントが直面していた要素特定の不正確さや知識不足、長期的なタスク追跡の不安定さという3つの主要なボトルネックを解消するため、人間の経験を模倣する新しいマルチモーダルウェブエージェント「Avenir-Web」が開発されました。 このシステムは、視覚情報を優先して要素を特定する「グラウンディング・エキスパートの混合(MoGE)」、外部のオンラインガイドから操作手順を学ぶ「経験模倣プランニング(EIP)」、そして進捗を厳密に管理する「タスク追跡チェックリスト」と「アダプティブメモリ」を統合した革新的なアーキテクチャを採用しています。 実際のライブサイトを用いたベンチマーク「Online-Mind2Web」において、既存のオープンソースモデルを23.7%上回る53.7%の成功率を達成し、商用の最先端モデルに匹敵する性能をオープンソースの枠組みで実現したことで、実用的なウェブ操作エージェントの新たな基準を確立しました。

なぜこの問題か

現代のコンピューティング環境におけるウェブサイトは、極めて複雑なドキュメントオブジェクトモデル(DOM)構造や、動的に変化するユーザーインターフェースを備えており、自律型エージェントが長期的なタスクを完遂することは依然として困難です。既存のウェブエージェントには、主に3つの深刻な信頼性のボトルネックが存在しています。第一に、操作対象となる要素を正確に特定する「グラウンディング」の精度が不十分である点です。従来のDOM中心のアプローチでは、インラインフレーム(iframe)やキャンバス要素、シャドウDOMといった特殊な構造を正しく解釈できず、操作が途切れてしまうことが多々ありました。特に、複数のフレームが入れ子になっているような複雑なサイトでは、エージェントが要素を見失い、タスクが失敗する原因となっていました。 第二に、特定のウェブサイト固有の操作手順や知識が不足している点です。人間であれば外部のヘルプセンターやユーザーガイドを参照して効率的に操作できますが、従来のエージェントは事前の知識なしに試行錯誤に頼るため、無駄なトークン消費が増え、取り返しのつかないナビゲーションエラーを引き起こすリスクがありました。…

核心:何を提案したのか

本研究では、上述のボトルネックを解消するために、人間の経験を模倣する新しいマルチモーダルウェブエージェント「Avenir-Web」を提案しています。このエージェントの名称である「Avenir」は、フランス語で「未来」を意味すると同時に、前向きな美学を持つ幾何学的な書体にも由来しています。このエージェントの核心は、戦略的な計画立案と、堅牢な実行ループを組み合わせたモジュール式のアーキテクチャにあります。…

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む