Perturbing Attention Gives You More Bang for the Buck: Subtle Imaging Perturbations That Efficiently Fool Customized Diffusion Models

要約

拡散モデル (DM) は生成モデリングの新時代を迎え、高品質で現実的なデータ サンプルを効率的に生成するためのより多くの機会を提供します。
ただし、その広範な使用により、モデルのセキュリティに新たな課題も生じており、その脆弱性を理解するために、DM に対してより効果的な敵対的な攻撃者を作成する動機となっています。
私たちは、潜在拡散モデル (LDM) を効果的に騙すために高価なトレーニングを必要としない、シンプルだが汎用的で効率的なアプローチである CAAT を提案します。
このアプローチは、クロスアテンション レイヤーが勾配の変化に対してより高い感度を示し、パブリッシュされた画像の微妙な摂動を利用して、生成された画像を大幅に破損させることができるという観察に基づいています。
画像上の微妙な摂動がクロスアテンション層に大きな影響を与え、カスタマイズされた拡散モデルの微調整中にテキストと画像間のマッピングが変化する可能性があることを示します。
広範な実験により、CAAT が多様な拡散モデルと互換性があり、より効果的 (ノイズが多く) かつ効率的 (Anti-DreamBooth および Mist の 2 倍の速度) でベースラインの攻撃手法を上回るパフォーマンスを発揮することが実証されています。

要約(オリジナル)

Diffusion models (DMs) embark a new era of generative modeling and offer more opportunities for efficient generating high-quality and realistic data samples. However, their widespread use has also brought forth new challenges in model security, which motivates the creation of more effective adversarial attackers on DMs to understand its vulnerability. We propose CAAT, a simple but generic and efficient approach that does not require costly training to effectively fool latent diffusion models (LDMs). The approach is based on the observation that cross-attention layers exhibits higher sensitivity to gradient change, allowing for leveraging subtle perturbations on published images to significantly corrupt the generated images. We show that a subtle perturbation on an image can significantly impact the cross-attention layers, thus changing the mapping between text and image during the fine-tuning of customized diffusion models. Extensive experiments demonstrate that CAAT is compatible with diverse diffusion models and outperforms baseline attack methods in a more effective (more noise) and efficient (twice as fast as Anti-DreamBooth and Mist) manner.

arxiv情報

著者 Jingyao Xu,Yuetong Lu,Yandong Li,Siyang Lu,Dongdong Wang,Xiang Wei
発行日 2024-04-23 14:31:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク