エージェントのスキル機能は外部のコードや手順を取り込んで能力を広げますが、その「指示の塊」自体に悪性の指示が混ざると、ユーザーが気づきにくいまま乗っ取りが起き得ます。 / 著者らは、スキルファイル内に埋め込まれた露骨に危険な指示と、文脈次第で正当にも見える二面性のある指示を、実タスクと組にして評価するSkillInjectを整備し、安全性と有用性を同時に測れるようにしました。 / 評価の結果、現在のエージェントは高い割合で注入指示を実行してしまい、データの持ち出しや破壊的操作、ランサムウェアに似た振る舞いまで起こり得るため、単純な入力フィルタやモデルの大型化ではなく文脈を踏まえた認可の枠組みが重要だと示唆されました。
大規模言語モデルのエージェントは、コード実行やツール利用を背景に、実運用の場面へ入り込みやすくなっています。そこで導入が進んでいるのが「エージェントスキル」で、特定領域のコード、知識、手順をパッケージ化して追加できるため、基盤モデルの学習範囲を越える作業にも対応しやすくなります。一方で、この拡張性は供給連鎖を複雑にし、エージェントが従う指示が、ユーザーやシステム、ベンダーだけで閉じなくなります。第三者が配布したスキル由来のプロンプトが、実行時にエージェントへ流れ込み得るためです。 従来の間接的なプロンプトインジェクションは、メール、ウェブページ、文書、ツール出力のような「データ」に紛れた指示で動作を逸らす構図が中心でした。これに対してスキルベースの攻撃は、そもそもスキルファイルが指示で構成されている点が決定的に異なります。「指示とデータを分ける」「データ内の指示を検知する」といった発想だけでは、指示の中に紛れた悪性指示を見分ける問題に直面します。著者らは、ソフトウェアパッケージに悪性コードが混入する供給連鎖攻撃と同型のリスクが、自然言語の指示として発生し得ると位置づけています。…
本研究の提案の中心は、スキルファイルを経由するプロンプトインジェクションを重要な脅威として明確化し、その脆弱性を系統立てて測定するベンチマークSkillInject(論文中ではSKILL-INJECT表記)を提供する点にあります。SkillInjectは、スキルファイルに「注入された指示」と、エージェントが本来達成すべき「ユーザータスク」を対にした評価セットで構成されます。これにより、単に危険な出力をしたかどうかではなく、ユーザーの目的達成(有用性)と、悪性指示の回避(安全性)を同時に評価できます。 特に重視されているのが、露骨に悪い指示だけでなく、正当な運用ルールに見えやすい「文脈依存の二面性」を持つ指示を含めることです。スキルには、特定のシステムやAPIに関する細かな手順や規則が書かれ、モデルにとって未知の前提が多くなりがちです。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related