大規模言語モデル(LLM)において、悪意のある意図がそれと意味的に整合する文脈(コンテキスト)と組み合わさった際に安全制約が大幅に緩和される「意図・文脈結合(Intent-Context Coupling)」という現象を解明しました。
大規模言語モデル(LLM)において、悪意のある意図がそれと意味的に整合する文脈(コンテキスト)と組み合わさった際に安全制約が大幅に緩和される「意図・文脈結合(Intent-Context Coupling)」という現象を解明しました。 この知見に基づき、意図に応じた最適な文脈を自動選択し、学術論文のような権威ある形式で攻撃プロンプトを構成するフレームワーク「ICON」を開発し、主要なモデルにおいて平均97.1%という極めて高い攻撃成功率を記録しました。 ICONは、局所的なプロンプト修正を行う戦術的最適化と、文脈そのものを切り替える戦略的最適化を組み合わせた階層的な構造を持ち、従来の探索型手法よりも少ない試行回数で効率的にガードレールを回避することに成功しています。
大規模言語モデル(LLM)は、その高度な推論能力や生成能力によって多様なタスクに活用されていますが、同時に悪意のあるプロンプトによって安全ガードレールを突破される「ジェイルブレイク攻撃」の脅威に常にさらされています。従来の攻撃手法の主流であった単発型(シングルターン)の攻撃は、一つのプロンプト内にすべての悪意のある指示を詰め込む必要があるため、安全フィルターによって検知されやすいという根本的な弱点がありました。これに対処するために、複数の対話を通じて段階的に悪意を導入する多対話型(マルチターン)攻撃が登場しましたが、既存の手法には依然として二つの大きな課題が残されています。 第一の課題は、攻撃の効率性です。既存の「ActorAttack」や「FITD」といった手法は、対話の文脈を一から構築するために、モデルと何度もやり取りを繰り返して徐々に外堀を埋めていく必要があります。このプロセスは非常に時間がかかるだけでなく、APIの利用コストも膨大になり、攻撃者にとって効率が悪いという問題がありました。また、既存の手法は特定の安全調整に密接に依存しているため、異なるモデル間での汎用性が低いという点も指摘されています。…
本研究では、悪意のある意図とそれが提示される文脈が意味的に調和しているとき、モデルの安全制約が著しく緩和されるという「意図・文脈結合(Intent-Context Coupling)」現象を定義し、これを体系的に利用するフレームワーク「ICON」を提案しました。ICONの核心は、モデルが学習過程で獲得した「特定の文脈では特定の話題が許容される」というバイアスを逆手に取る点にあります。具体的には、ハッキングや詐欺といった悪意のある意図を、それと親和性の高い「科学的研究」や「問題解決」といった文脈パターンに自動的にルーティングし、攻撃の成功率を最大化します。 ICONのもう一つの重要な提案は、モデルが「権威あるスタイル」の情報を信頼しやすいという性質を利用した、敵対的文脈の具体化です。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related