AI研究 2026-02-04 タグ: cs.LG, cs.AI, cs.CR, cs.MA

『ダビデ対ゴリアテ』――強化学習で検証できるエージェント対エージェント脱獄

「安全なはずのエージェント」が、なぜ会話だけで“禁止されたツール操作”に踏み込んでしまうのか？この問いは、チャットでの言い回しや巧妙な誘導だけでは説明しきれない、エージェント特有の弱点を含んでいます。ポイントは、攻撃者がツールを持たなくても「信頼された権限に同乗」できるところにあります。

論文図解

TL;DR（結論）

論文が前面に出すのは、次の3点です。
いずれも「攻撃の派手さ」より、「検証できる形に落とす」ことを強く意識した並べ方になっています。
舞台は、AgentDojoで表現される二者構成です。

なぜこの問題か

大規模言語モデルが「チャットボット」から「自律エージェント」へ進化すると、失敗の形が変わります。単に危険な文章を生成するかどうかではなく、正当なツール権限をどう扱うかが核心になってくるからです。ここでいう“正当な権限”とは、まさに業務のために与えられたもので、エージェントが役に立つほど強力になりやすい、という前提を含みます。

核心：何を提案したのか

論文が前面に出すのは、次の3点です。いずれも「攻撃の派手さ」より、「検証できる形に落とす」ことを強く意識した並べ方になっています。

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。