大規模言語モデル(LLM)のセキュリティ強化のため、パラメータ更新なしで防御策を学習する「RvB(Red Team vs. Blue Team)」フレームワークが提案されました。この手法は、攻撃と防御の反復的なゲームを通じて脆弱性を特定・修復し、コード強化とジェイルブレイク対策において高い防御成功率と極めて低い誤検知率を達成しました。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related