継続更新

Procedure-Aware Evaluation:LLMエージェントの「不正な成功」を暴く

本研究は、LLM エージェントを「タスクを達成したか」だけでなく、「どう達成したか」まで見る Procedure-Aware Evaluation(PAE)を提案し、Utility・Efficiency・Interaction Quality・Procedural Integrity の 4 軸で評価します。 τ-bench で GPT-5、Kimi-K2-Thinking、Mistral-Large-3 を評価すると、従来の成功判定では見えなかった corrupt success が 27〜78% 含まれ、Pass^4 は gating 後に 2〜24% まで大きく落ち、モデル順位も変わりました。 航空券ドメインでの手動分析では、フラグ付けされた事例の 93.8〜95.2% が本当に問題のある成功と確認され、同時にベンチマーク側にもタスク定義漏れや報酬矛盾、シミュレータ由来の偶然成功があることを示しています。

Procedure-Aware Evaluation:LLMエージェントの「不正な成功」を暴く の図解
論文図解

TL;DR(結論)

  • 本研究は、LLM エージェントを「タスクを達成したか」だけでなく、「どう達成したか」まで見る Procedure-Aware Evaluation(PAE)を提案し、Utility・Efficiency・Interaction Quality・Procedural Integrity の 4 軸で評価します。
  • τ-bench で GPT-5、Kimi-K2-Thinking、Mistral-Large-3 を評価すると、従来の成功判定では見えなかった corrupt success が 27〜78% 含まれ、Pass^4 は gating 後に 2〜24% まで大きく落ち、モデル順位も変わりました。
  • 航空券ドメインでの手動分析では、フラグ付けされた事例の 93.8〜95.2% が本当に問題のある成功と確認され、同時にベンチマーク側にもタスク定義漏れや報酬矛盾、シミュレータ由来の偶然成功があることを示しています。

なぜこの問題か

テキスト生成モデルの評価では、最終回答の正誤やベンチマーク達成率が中心でした。しかしエージェントになると、問題は最終文面ではなく、行動列全体に広がります。外部ツールを呼び、共有状態を更新し、ユーザー確認を取り、ポリシー制約の下で手続きを進める。その過程で不正確な案内や勝手な実行が混ざれば、最終的に目的を達していても運用上はアウトです。

核心:何を提案したのか

提案の中心は Procedure-Aware Evaluation(PAE)です。PAE は、エージェント評価を 4 つの補完的な軸に分けます。何を達成したかを見る Utility、どれだけ無駄なく行動したかを見る Efficiency、ユーザーに対する説明や負担を見る Interaction Quality、そして最も重要な Procedural Integrity です。

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む