DiffAttack: Evasion Attacks Against Diffusion-Based Adversarial Purification

要約

拡散に基づく純化防御は、拡散モデルを活用して敵対的な例の細工された摂動を除去し、最先端の頑健性を達成する。最近の研究では、高度な攻撃であってもこのような防御を効果的に破ることはできないことが示されている。なぜなら、浄化プロセスは非常に深い計算グラフを生成し、勾配難読化、高いメモリコスト、無制限のランダム性といった潜在的な問題を引き起こすからである。本論文では、DDPMアプローチとスコアベースアプローチの両方を含む、拡散に基づく純化防御に対して効果的かつ効率的な攻撃を行うための統一フレームワークDiffAttackを提案する。特に、勾配が消失/爆発する問題に対処するために、不正確な密度勾配推定を誘導するために、中間拡散ステップにおける逸脱再構築損失を提案する。また、メモリ効率の良い勾配バックプロパゲーションにつながるセグメント単位のフォワーディング・バックワーディングアルゴリズムを提供する。CIFAR-10とImageNetを用いて、既存の適応型攻撃と比較したDiffAttackの攻撃効果を検証する。DiffAttackは、SOTA攻撃と比較して、CIFAR-10では$(epsilon=8/255)$攻撃で20%以上、ImageNetでは$(epsilon=4/255)$攻撃で10%以上、モデルのロバスト精度を低下させることを示す。我々は、一連のアブレーション研究を行い、1)一様にサンプリングされた時間ステップに偏差再構成損失を追加したDiffAttackは、初期/最終ステップのみに追加したものよりも効果的であること、2)適度な拡散長を持つ拡散ベースの浄化は、DiffAttackの下でより頑健であることを見出した。

要約(オリジナル)

Diffusion-based purification defenses leverage diffusion models to remove crafted perturbations of adversarial examples and achieve state-of-the-art robustness. Recent studies show that even advanced attacks cannot break such defenses effectively, since the purification process induces an extremely deep computational graph which poses the potential problem of gradient obfuscation, high memory cost, and unbounded randomness. In this paper, we propose a unified framework DiffAttack to perform effective and efficient attacks against diffusion-based purification defenses, including both DDPM and score-based approaches. In particular, we propose a deviated-reconstruction loss at intermediate diffusion steps to induce inaccurate density gradient estimation to tackle the problem of vanishing/exploding gradients. We also provide a segment-wise forwarding-backwarding algorithm, which leads to memory-efficient gradient backpropagation. We validate the attack effectiveness of DiffAttack compared with existing adaptive attacks on CIFAR-10 and ImageNet. We show that DiffAttack decreases the robust accuracy of models compared with SOTA attacks by over 20% on CIFAR-10 under $\ell_\infty$ attack $(\epsilon=8/255)$, and over 10% on ImageNet under $\ell_\infty$ attack $(\epsilon=4/255)$. We conduct a series of ablations studies, and we find 1) DiffAttack with the deviated-reconstruction loss added over uniformly sampled time steps is more effective than that added over only initial/final steps, and 2) diffusion-based purification with a moderate diffusion length is more robust under DiffAttack.

arxiv情報

著者 Mintong Kang,Dawn Song,Bo Li
発行日 2024-01-04 03:19:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR パーマリンク