最先端の大規模言語モデル(LLM)は、複雑な企業システム内での自律エージェントとしての能力が未検証です。本研究は、ServiceNowを基盤としたリアルな環境「World of Workflows (WoW)」と、234のタスクを含むベンチマーク「WoW-bench」を提案しました。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related