要約
敵対的な例を含む標的型転送ベースの攻撃は、大規模な視覚言語モデル (VLM) に重大な脅威をもたらします。
ただし、最先端 (SOTA) 転送ベースの攻撃では、反復回数が多すぎるため、高いコストが発生します。
さらに、生成された敵対的な例は、顕著な敵対的なノイズを示し、DiffPure などの防御方法を回避する際の有効性が限定的であることを示しています。
これらの問題に対処するために、スコア マッチングから着想を得て、拡散モデルを利用して自然で制限のない敵対的な例を生成する AdvDiffVLM を導入します。
具体的には、AdvDiffVLM は適応アンサンブル勾配推定を使用して拡散モデルの逆生成プロセス中にスコアを変更し、生成される敵対的な例に自然な敵対的なセマンティクスが含まれるようにして、強化された転送可能性を確保します。
同時に、敵対的な例の品質をさらに高めるために、GradCAM ガイド付きマスク手法を採用して、敵対的なセマンティクスを特定の領域に集中させるのではなく、画像全体に分散させます。
実験結果は、私たちの方法が、敵対的な例の優れた品質を維持しながら、既存の転送ベースの攻撃方法と比較して 10 倍から 30 倍の速度向上を達成することを示しています。
さらに、生成された敵対的な例は、強力な転送可能性を備えており、敵対的な防御方法に対する堅牢性が向上しています。
特に、AdvDiffVLM は、GPT-4V を含む商用 VLM をブラックボックス方式で攻撃することができます。
要約(オリジナル)
Targeted transfer-based attacks involving adversarial examples pose a significant threat to large visual-language models (VLMs). However, the state-of-the-art (SOTA) transfer-based attacks incur high costs due to excessive iteration counts. Furthermore, the generated adversarial examples exhibit pronounced adversarial noise and demonstrate limited efficacy in evading defense methods such as DiffPure. To address these issues, inspired by score matching, we introduce AdvDiffVLM, which utilizes diffusion models to generate natural, unrestricted adversarial examples. Specifically, AdvDiffVLM employs Adaptive Ensemble Gradient Estimation to modify the score during the diffusion model’s reverse generation process, ensuring the adversarial examples produced contain natural adversarial semantics and thus possess enhanced transferability. Simultaneously, to enhance the quality of adversarial examples further, we employ the GradCAM-guided Mask method to disperse adversarial semantics throughout the image, rather than concentrating them in a specific area. Experimental results demonstrate that our method achieves a speedup ranging from 10X to 30X compared to existing transfer-based attack methods, while maintaining superior quality of adversarial examples. Additionally, the generated adversarial examples possess strong transferability and exhibit increased robustness against adversarial defense methods. Notably, AdvDiffVLM can successfully attack commercial VLMs, including GPT-4V, in a black-box manner.
arxiv情報
著者 | Qi Guo,Shanmin Pang,Xiaojun Jia,Qing Guo |
発行日 | 2024-04-18 13:34:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google