Unlocking The Potential of Adaptive Attacks on Diffusion-Based Purification

要約

拡散ベースの浄化 (DBP) は、敵対的例 (AE) に対する防御であり、攻撃を意識しない方法で分類子を保護する機能と、防御にアクセスできる強力な敵対者に対する耐性で人気を集めています。
その堅牢性は、AE を自然分布に投影する拡散モデル (DM) への依存から生じると主張されています。
我々は、一般に「適応攻撃」と呼ばれる、防御を通じて損失勾配を逆伝播する勾配ベースの戦略に焦点を当てて、この主張を再検討します。
分析的に、このような最適化手法は DBP の中核基盤を無効にし、分類子ではなく DM を効果的にターゲットにし、代わりに精製された出力を悪意のあるサンプル上の分布に制限することを示します。
したがって、報告された経験的な堅牢性を再評価し、これまで DBP に使用されていた勾配逆伝播手法の実装上の欠陥を明らかにします。
私たちはこれらの問題を修正し、DBP に初めて信頼できる勾配ライブラリを提供し、適応型攻撃がその堅牢性をどのように大幅に低下させるかを実証します。
次に、分類子が入力の精製された複数のコピーを評価して決定を下す、効率は低いがより厳密な多数決設定を研究します。
ここで、DBP の確率性により、従来のノルムに制限された AE に対して部分的に堅牢な状態を維持できます。
我々は、知覚不能性を確保しながら体系的な悪意のある摂動を作り出す、ディープフェイク透かしに対する最近の最適化手法の新たな適応を提案します。
適応型攻撃と統合すると、多数決の設定であっても DBP を完全に破ります。
私たちの調査結果は、DBP が現状では AE に対する有効な防御策ではないことを証明しています。

要約(オリジナル)

Diffusion-based purification (DBP) is a defense against adversarial examples (AEs), amassing popularity for its ability to protect classifiers in an attack-oblivious manner and resistance to strong adversaries with access to the defense. Its robustness has been claimed to ensue from the reliance on diffusion models (DMs) that project the AEs onto the natural distribution. We revisit this claim, focusing on gradient-based strategies that back-propagate the loss gradients through the defense, commonly referred to as “adaptive attacks’. Analytically, we show that such an optimization method invalidates DBP’s core foundations, effectively targeting the DM rather than the classifier and restricting the purified outputs to a distribution over malicious samples instead. Thus, we reassess the reported empirical robustness, uncovering implementation flaws in the gradient back-propagation techniques used thus far for DBP. We fix these issues, providing the first reliable gradient library for DBP and demonstrating how adaptive attacks drastically degrade its robustness. We then study a less efficient yet stricter majority-vote setting where the classifier evaluates multiple purified copies of the input to make its decision. Here, DBP’s stochasticity enables it to remain partially robust against traditional norm-bounded AEs. We propose a novel adaptation of a recent optimization method against deepfake watermarking that crafts systemic malicious perturbations while ensuring imperceptibility. When integrated with the adaptive attack, it completely defeats DBP, even in the majority-vote setup. Our findings prove that DBP, in its current state, is not a viable defense against AEs.

arxiv情報

著者 Andre Kassis,Urs Hengartner,Yaoliang Yu
発行日 2024-11-25 17:30:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク