大規模視覚言語モデルの高速化に用いられる視覚トークン圧縮が、敵対的攻撃への耐性に与える影響を調査した研究です。従来の攻撃手法では圧縮による情報の欠落を考慮できず、堅牢性を過大評価する傾向がありました。提案手法「CAGE」は、圧縮プロセスを考慮した最適化により、効率的なモデルにおける真の脆弱性を明らかにします。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related