CARSO: Blending Adversarial Training and Purification Improves Adversarial Robustness


この研究では、敵対的トレーニングと敵対的浄化のパラダイムを相互に有益で堅牢性を高める方法で融合した、画像分類のための新しい敵対的防御メカニズム CARSO を提案します。
さまざまな画像データセットと分類子アーキテクチャにわたる、多様で強力な適応型攻撃の確立されたベンチマークによる実験評価では、CARSO が、確率的防御のために考案された適応型エンドツーエンド攻撃を含む、予見および予期せぬ脅威に対して防御できることが示されています。
許容できるクリーンな精度の代償を支払うことで、私たちの方法は、CIFAR-10 および CIFAR-100 $\ell_\infty$ の Auto Attack に対する堅牢な分類精度の最先端を大幅に向上させます。
コードと事前トレーニングされたモデルは で入手できます。


In this work, we propose a novel adversarial defence mechanism for image classification – CARSO – blending the paradigms of adversarial training and adversarial purification in a mutually-beneficial, robustness-enhancing way. The method builds upon an adversarially-trained classifier, and learns to map its internal representation associated with a potentially perturbed input onto a distribution of tentative clean reconstructions. Multiple samples from such distribution are classified by the adversarially-trained model itself, and an aggregation of its outputs finally constitutes the robust prediction of interest. Experimental evaluation by a well-established benchmark of varied, strong adaptive attacks, across different image datasets and classifier architectures, shows that CARSO is able to defend itself against foreseen and unforeseen threats, including adaptive end-to-end attacks devised for stochastic defences. Paying a tolerable clean accuracy toll, our method improves by a significant margin the state of the art for CIFAR-10 and CIFAR-100 $\ell_\infty$ robust classification accuracy against AutoAttack. Code and pre-trained models are available at .


著者 Emanuele Ballarin,Alessio Ansuini,Luca Bortolussi
発行日 2023-10-17 15:20:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG パーマリンク