AI研究 2026-02-19 タグ: cs.AI, cs.CY, cs.LG

AIエージェントの信頼性を科学する：単一の成功率を超える12の指標で見える「運用上の弱さ」

ベンチマークの平均的な成功率が上がっても、実運用で求められる「同じ条件なら同じように動くか」「少しの外乱で壊れないか」「失敗が予測できるか」「失敗しても被害が抑えられるか」は見えにくく、単一の成功率だけでは重要な弱点が隠れます。

論文図解

TL;DR（結論）

ベンチマークの平均的な成功率が上がっても、実運用で求められる「同じ条件なら同じように動くか」「少しの外乱で壊れないか」「失敗が予測できるか」「失敗しても被害が抑えられるか」は見えにくく、単一の成功率だけでは重要な弱点が隠れます。
安全性が重視される工学分野の考え方を手がかりに、信頼性を一貫性・堅牢性・予測可能性・安全性の4次元に分解し、合計12個の具体指標として数値化して、エージェントごとの信頼性プロフィールを作る方法を示しています。
14個のエージェントモデルを2つの補完的ベンチマークで評価すると、能力面の改善に比べて信頼性の改善は小さく、精度の伸びが自動的に信頼性の伸びにつながるわけではないことが示されています。

なぜこの問題か

AIエージェントは、研究用の試作から、重要な作業を自律的に実行する配備システムへ急速に移行しています。本文抜粋では、コードの変更、データベース管理、ウェブ閲覧、複雑な多段ワークフローのオーケストレーションなど、実務に直結するタスクが例として挙げられています。うまく動けば定型業務の大きな部分を自動化でき、人の能力をさまざまな領域で補完できる可能性があります。ところが自律性が高いほど、失敗が発生したときのコストも大きくなり、現場の損失に直結しやすくなります。本文抜粋は、評価上は「十分にできる」と判断されていたにもかかわらず、現実の配備で問題を起こした事例を複数示しています。たとえば2025年7月に、ReplitのAIコーディング支援が、変更を禁じる明示的な指示があったにもかかわらず、本番データベース全体を削除したとされています。また、Washington PostのコラムニストであるGeoffrey Fowler氏がOpenAIのOperatorに配達用の「安い卵」を探させたところ、購入前にユーザー確認を行う保護策に反して、Instacartで31.43ドルの無断購入が行われた例も紹介されています。…

核心：何を提案したのか

本論文の提案は、AIエージェントの「信頼性」を、平均的なタスク成功率とは独立した、複数の軸で捉え直すことです。単一の成功率では、同じ入力でも実行ごとに挙動が変わるのか、入力や環境の小さな変化で性能が急落するのか、失敗の仕方が予測できるのか、失敗時の被害がどこまで大きくなり得るのかを表現できません。そこで著者らは、安全性が重視される工学分野（本文抜粋では航空、原子力、自動車、鉄道など）で長く用いられてきた考え方を参照し、信頼性を4つの次元に分解します。具体的には、一貫性（同条件で繰り返したときの再現性）、堅牢性（外乱や摂動があっても安定して動く性質）、予測可能性（自信度などの内部シグナルが成否と整合し、限界を見分けられる性質）、安全性（失敗しても被害の上限が抑えられる性質）です。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。