「安全なはずのエージェント」が、なぜ会話だけで“禁止されたツール操作”に踏み込んでしまうのか? この問いは、チャットでの言い回しや巧妙な誘導だけでは説明しきれない、エージェント特有の弱点を含んでいます。 ポイントは、攻撃者がツールを持たなくても「信頼された権限に同乗」できるところにあります。
大規模言語モデルが「チャットボット」から「自律エージェント」へ進化すると、失敗の形が変わります。単に危険な文章を生成するかどうかではなく、正当なツール権限をどう扱うかが核心になってくるからです。ここでいう“正当な権限”とは、まさに業務のために与えられたもので、エージェントが役に立つほど強力になりやすい、という前提を含みます。
論文が前面に出すのは、次の3点です。いずれも「攻撃の派手さ」より、「検証できる形に落とす」ことを強く意識した並べ方になっています。
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related