AI研究 2026-02-01 タグ: cs.AI, cs.SE

World of Workflows: 企業システムに世界モデルをもたらすためのベンチマーク

最先端の大規模言語モデル（LLM）は、一般的なタスクでは高い能力を示すものの、複雑な企業システム内では隠れたワークフローが引き起こす連鎖的な副作用を予測できず、制約違反を無意識に引き起こす「動態盲目（Dynamics Blindness）」の状態にあることが本研究で明らかになった。

論文図解

TL;DR（結論）

最先端の大規模言語モデル（LLM）は、一般的なタスクでは高い能力を示すものの、複雑な企業システム内では隠れたワークフローが引き起こす連鎖的な副作用を予測できず、制約違反を無意識に引き起こす「動態盲目（Dynamics Blindness）」の状態にあることが本研究で明らかになった。この課題を解決するため、ServiceNowをベースに4,000以上のビジネスルールと55の有効なワークフローを組み込んだ現実的な環境「World of Workflows（WoW）」と、エージェントの動態モデリング能力を評価する234のタスクからなる「WoW-bench」を提案している。検証の結果、データベースの状態変化を示す監査ログを観察情報に加えることでタスク成功率が最大7倍向上することが示され、信頼性の高い企業向けエージェントの実現には、システムの隠れた状態遷移を内部的にシミュレーションする「接地された世界モデル」の構築という新しい学習パラダイムが必要であると結論付けられた。

なぜこの問題か

大規模言語モデル（LLM）をベースとした自律型エージェントは、ソフトウェアエンジニアリングや一般的なコンピュータ操作の分野で目覚ましい進歩を遂げているが、複雑な企業システムという環境においては依然として信頼性が低いという深刻な課題がある。企業システムは、リレーショナルテーブル、ワークフローエンジン、ビジネスルール、およびアプリケーションモジュールが、不透明で複雑なデータフローの連鎖を通じて相互作用する場である。このようなシステムは、観測可能な範囲が極めて限定されている一方で、データベースの状態が膨大であるという特徴を持っており、ユーザーが行う単一のアクションが、依存関係にある複数のテーブルに対して連鎖的な更新をトリガーすることが珍しくない。既存の企業向けベンチマークは、表面的なタスクの完了を評価することに主眼を置いており、限定的な観測可能性や、副作用を伴う隠れたワークフロー、現実の企業活動を支配するマルチホップなデータ依存関係といった真の課題を十分に反映できていない。…

核心：何を提案したのか

本研究では、企業システム特有の複雑な動態を評価するために、ServiceNowをベースとした現実的かつワークフロー中心の環境である「World of Workflows（WoW）」を導入した。この環境には、4,000以上のビジネスルールと55の有効なワークフローが組み込まれており、実際のIT運用におけるユーザー管理、インシデント対応、資産管理、ナレッジベース、カタログ、経費精算といった複数の管理ドメインを網羅している。これにより、単なるデータの読み書きだけでなく、システム内部で発生する複雑なロジックの連鎖を再現することが可能となった。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。