Struggle with Adversarial Defense? Try Diffusion

要約

敵対的な攻撃は、微妙な摂動を引き起こすことで誤分類を引き起こします。
最近では、拡散モデルが画像分類器に適用され、敵対的なトレーニングや敵対的なノイズの浄化によって敵対的な堅牢性が向上しています。
ただし、拡散ベースの敵対的トレーニングでは、多くの場合、収束の課題と高い計算コストが発生します。
さらに、拡散ベースの浄化は必然的にデータシフトを引き起こし、より強力な適応型攻撃を受けやすいと考えられています。
これらの問題に取り組むために、私たちは、事前にトレーニングされた拡散モデルとベイズの定理に基づいて構築された生成ベイズ分類器である、真理最大化拡散分類器 (TMDC) を提案します。
データ駆動型の分類子とは異なり、TMDC はベイジアン原理に基づいて、拡散モデルからの条件付き尤度を利用して入力画像のクラス確率を決定するため、データ シフトの影響や敵対的トレーニングの制限を回避します。
さらに、より強力な敵対的攻撃に対する TMDC の回復力を強化するために、拡散分類器の最適化戦略を提案します。
この戦略には、グラウンド トゥルース ラベルを条件として摂動データセットで拡散モデルをポストトレーニングし、データ分布を学習するように拡散モデルを誘導し、グラウンド トゥルース ラベルの下での尤度を最大化することが含まれます。
提案された手法は、CIFAR10 データセット上で重度のホワイトボックス攻撃と強力な適応型攻撃に対して最先端のパフォーマンスを実現します。
具体的には、TMDC は、$\epsilon=0.05$ の場合、$l_{\infty}$ ノルム有界摂動に対して 82.81%、$l_{2}$ ノルム有界摂動に対して 86.05% の堅牢な精度をそれぞれ達成します。

要約(オリジナル)

Adversarial attacks induce misclassification by introducing subtle perturbations. Recently, diffusion models are applied to the image classifiers to improve adversarial robustness through adversarial training or by purifying adversarial noise. However, diffusion-based adversarial training often encounters convergence challenges and high computational expenses. Additionally, diffusion-based purification inevitably causes data shift and is deemed susceptible to stronger adaptive attacks. To tackle these issues, we propose the Truth Maximization Diffusion Classifier (TMDC), a generative Bayesian classifier that builds upon pre-trained diffusion models and the Bayesian theorem. Unlike data-driven classifiers, TMDC, guided by Bayesian principles, utilizes the conditional likelihood from diffusion models to determine the class probabilities of input images, thereby insulating against the influences of data shift and the limitations of adversarial training. Moreover, to enhance TMDC’s resilience against more potent adversarial attacks, we propose an optimization strategy for diffusion classifiers. This strategy involves post-training the diffusion model on perturbed datasets with ground-truth labels as conditions, guiding the diffusion model to learn the data distribution and maximizing the likelihood under the ground-truth labels. The proposed method achieves state-of-the-art performance on the CIFAR10 dataset against heavy white-box attacks and strong adaptive attacks. Specifically, TMDC achieves robust accuracies of 82.81% against $l_{\infty}$ norm-bounded perturbations and 86.05% against $l_{2}$ norm-bounded perturbations, respectively, with $\epsilon=0.05$.

arxiv情報

著者 Yujie Li,Yanbin Wang,Haitao Xu,Bin Liu,Jianguo Sun,Zhenhao Guo,Wenrui Ma
発行日 2024-04-18 15:55:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV パーマリンク