継続更新

尋ねるだけで:好奇心旺盛なコードエージェントがフロンティアLLMのシステムプロンプトを明らかにする

現代の自律型コードエージェントは、高度な推論能力を持つ一方で、自身の挙動を規定する隠されたシステムプロンプトを体系的に探索・復元されてしまうという、これまで認識されていなかった重大なセキュリティ上の脆弱性を抱えている。

尋ねるだけで:好奇心旺盛なコードエージェントがフロンティアLLMのシステムプロンプトを明らかにする の図解
論文図解

TL;DR(結論)

現代の自律型コードエージェントは、高度な推論能力を持つ一方で、自身の挙動を規定する隠されたシステムプロンプトを体系的に探索・復元されてしまうという、これまで認識されていなかった重大なセキュリティ上の脆弱性を抱えている。本研究で提案された「JUSTASK」は、事前の学習データや手動のプロンプト設計を必要とせず、ターゲットとなるモデルとの対話のみを通じて効果的な抽出戦略を自律的に発見する、自己進化型のフレームワークである。41種類の商用モデルを用いた検証では、すべてのモデルでシステムプロンプトの完全またはほぼ完全な復元に成功しており、既存の「教えないでください」といった単純な防御策では、この適応的な攻撃を十分に防げないことが明らかになった。

なぜこの問題か

大規模言語モデル(LLM)を基盤としたコードエージェントは、ツールの使用、長期的な推論、そして自己主導的な対話を通じて、ソフトウェア開発やAI開発のプロセスを根本から変えつつある。これらのエージェントは、ファイルエクスプローラー、シェル実行、設計プランナー、テストハーネスといった複数の専門的なモジュールを統合しており、その動作はアイデンティティ、安全性の制約、運用ルールを規定する精巧なシステムプロンプトによって共同で制御されている。エージェントが機密性の高いコードベースへのアクセス権や現実世界での実行権限をますます委ねられるようになるにつれ、これら隠された指示の機密性を維持することは、セキュリティ上の最優先事項となっている。 システムプロンプトが漏洩すると、モデルの内部的な意思決定ロジックや優先順位の階層、安全性の例外条項、拒否のヒューリスティックが露呈してしまう。例えば、攻撃者が「教育的な文脈」が確立されればモデルが詳細な回答を許可することを学習した場合、その正確な条件を満たす標的型ジェイルブレイクを構築することが可能になる。既存のシステムプロンプト抽出手法には、主に3つの限界が存在していた。…

核心:何を提案したのか

本研究では、対話のみを通じてターゲットモデルからシステムプロンプトを自律的に抽出する、自己進化型フレームワーク「JUSTASK」を提案している。JUSTASKは、言語的なフィードバックを通じて学習する「言語的強化学習」と、教師なしのスキル発見の概念を組み合わせた設計となっている。このフレームワークは、ラベル付きのデータセットや事前の学習データに依存せず、ターゲットモデルの応答から直接学習することで、完全にブラックボックスな環境での展開を可能にしている。 JUSTASKは、抽出プロセスをオンライン探索問題として定式化し、Upper Confidence Bound(UCB)に基づいた戦略選択メカニズムを導入している。この設計により、経験的に効果的なスキルを利用することと、不確実な代替案を探索することのバランスを取ることができる。…

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む