LLMのツール使用能力評価において、従来の精度のみの測定では見えなかった認知的なボトルネックを明らかにする新しいフレームワークが提案された。認知負荷理論に基づき、タスクの複雑さを「内在的負荷」と「外在的負荷」に分解して定量化する。調整可能なベンチマーク「ToolLoad-Bench」を用いた実験により、各モデルの能力限界を正確にマッピングすることに成功した。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related