AI研究 2026-01-29 タグ: cs.AI

EntWorld：検証可能なエンタープライズGUIエージェントのための包括的環境およびベンチマーク

EntWorldは、ERPやCRMなどの複雑な業務システムを対象とした、検証可能なエンタープライズGUIエージェントのための包括的なベンチマーク環境です。従来のベンチマークが消費者向けの単純なタスクに偏っていたのに対し、本研究では6つの代表的な業務ドメインにわたる1,756個のタスクを構築し、高密度のユーザーインターフェースや厳格なビジネスロジックへの対応能力を測定します。本環境の最大の特徴は、データベースのスキーマからビジネスロジックを逆方向に解析してタスクを自動生成するスキーマ駆動型のフレームワークと、SQLを用いた決定論的な検証メカニズムを採用している点にあります。これにより、曖昧な視覚的マッチングやLLMによる評価に頼ることなく、データベースの状態変化を直接確認することで、タスクの完了を厳密かつノイズのない形で判定することが可能となりました。実験の結果、GPT-4.1などの最新モデルでも成功率は47.61%にとどまり、人間のパフォーマンスである85%との間に大きな乖離がある「エンタープライズ・ギャップ」が明らかになりました。独自に開発したEntAgent-RLは56.89%の成功率を達成して既存モデルを上回りましたが、依然として高密度なUIの認識や複雑な論理制約の理解には課題が残されており、専門特化型エージェントの開発の必要性が示唆されています。

論文図解

TL;DR（結論）

なぜこの問題か

現在のマルチモーダル大規模言語モデル（MLLM）を用いたエージェントは、一般的なウェブ閲覧やモバイル操作において高い能力を示していますが、専門的なエンタープライズ業務の自動化という領域では依然として大きな課題に直面しています。既存のベンチマークの多くは、電子商取引や旅行予約といった消費者向けのシナリオに焦点を当てており、プロフェッショナルな業務ワークフローが持つ複雑さや厳格さを十分に捉えきれていません。業務システムには、消費者向けアプリとは異なる特有の困難が存在します。第一に、業務ワークフローは深い論理依存関係と長期的なスパンのロジックによって特徴付けられます。例えば「購入注文が承認され、在庫が確認されるまで請求書を転記できない」といった厳格なビジネスルールが存在し、単なる情報の検索や状態を持たないナビゲーションとは本質的に異なります。既存の一般的なOSベンチマークでは、こうしたドメイン固有の論理的な深さをテストすることが困難です。第二に、データの希少性とプライバシーの問題があります。…

核心：何を提案したのか

本研究では、次世代のエンタープライズエージェントのために設計された、スケーラブルでインタラクティブ、かつ決定論的に検証可能な環境である「EntWorld」を提案しました。EntWorldは、従来のウェブベースのデータセットとは異なり、データベースのスキーマからビジネスロジックを逆方向に解析する、新しいスキーマ駆動型のタ…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。