Robust Classification via a Single Diffusion Model

要約

最近、拡散モデルは、敵対的ノイズを浄化したり、敵対的トレーニング用の現実的なデータを生成したりすることで、画像分類器の敵対的堅牢性を向上させるために適用されることに成功しました。
ただし、拡散ベースの浄化は、より強力な適応攻撃によって回避される可能性がありますが、敵対的トレーニングは目に見えない脅威の下ではうまく機能せず、これらの方法には避けられない限界が示されています。
拡散モデルの表現力をより良く活用するために、この論文では、敵対的にロバストになるように事前にトレーニングされた拡散モデルから構築される生成分類器であるロバスト拡散分類器 (RDC) を提案します。
私たちの方法では、まず特定の入力のデータ尤度を最大化し、次にベイズの定理による拡散モデルの条件付き尤度を使用して、最適化された入力のクラス確率を予測します。
私たちの方法は特定の敵対的攻撃に関するトレーニングを必要としないため、複数の目に見えない脅威に対する防御がより一般化可能であることを示します。
特に、RDC は CIFAR-10 で $\epsilon_\infty=8/255$ の $\ell_\infty$ ノルム境界摂動に対して $73.24\%$ の堅牢な精度を達成し、これまでの最先端の敵対的トレーニングを上回っています。
$+2.34\%$ でモデル化します。
この調査結果は、一般的に研究されている識別分類器と比較して、敵対的な堅牢性のための拡散モデルを採用することによる生成分類器の可能性を強調しています。

要約(オリジナル)

Recently, diffusion models have been successfully applied to improving adversarial robustness of image classifiers by purifying the adversarial noises or generating realistic data for adversarial training. However, the diffusion-based purification can be evaded by stronger adaptive attacks while adversarial training does not perform well under unseen threats, exhibiting inevitable limitations of these methods. To better harness the expressive power of diffusion models, in this paper we propose Robust Diffusion Classifier (RDC), a generative classifier that is constructed from a pre-trained diffusion model to be adversarially robust. Our method first maximizes the data likelihood of a given input and then predicts the class probabilities of the optimized input using the conditional likelihood of the diffusion model through Bayes’ theorem. Since our method does not require training on particular adversarial attacks, we demonstrate that it is more generalizable to defend against multiple unseen threats. In particular, RDC achieves $73.24\%$ robust accuracy against $\ell_\infty$ norm-bounded perturbations with $\epsilon_\infty=8/255$ on CIFAR-10, surpassing the previous state-of-the-art adversarial training models by $+2.34\%$. The findings highlight the potential of generative classifiers by employing diffusion models for adversarial robustness compared with the commonly studied discriminative classifiers.

arxiv情報

著者 Huanran Chen,Yinpeng Dong,Zhengyi Wang,Xiao Yang,Chengqi Duan,Hang Su,Jun Zhu
発行日 2023-05-24 15:25:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク