CARSO: Blending Adversarial Training and Purification Improves Adversarial Robustness

要約

この研究では、敵対的トレーニングと敵対的浄化のパラダイムを相互に有益で堅牢性を高める方法で融合した、画像分類のための新しい敵対的防御メカニズム CARSO を提案します。
このメソッドは、敵対的にトレーニングされた分類器に基づいて構築されており、潜在的に摂動された入力に関連付けられたその内部表現を、暫定的なクリーンな再構成の分布にマッピングすることを学習します。
このような分布からの複数のサンプルは、敵対的にトレーニングされたモデル自体によって分類され、その出力の集約が最終的に対象となる堅牢な予測を構成します。
さまざまな画像データセットと分類子アーキテクチャにわたる、多様で強力な適応型攻撃の確立されたベンチマークによる実験評価では、CARSO が、確率的防御のために考案された適応型エンドツーエンド攻撃を含む、予見および予期せぬ脅威に対して防御できることが示されています。
許容できるクリーンな精度の代償を支払うことで、私たちの方法は、CIFAR-10 および CIFAR-100 $\ell_\infty$ の Auto Attack に対する堅牢な分類精度の最先端を大幅に向上させます。
コードと事前トレーニングされたモデルは https://github.com/emaballarin/CARSO で入手できます。

要約(オリジナル)

In this work, we propose a novel adversarial defence mechanism for image classification – CARSO – blending the paradigms of adversarial training and adversarial purification in a mutually-beneficial, robustness-enhancing way. The method builds upon an adversarially-trained classifier, and learns to map its internal representation associated with a potentially perturbed input onto a distribution of tentative clean reconstructions. Multiple samples from such distribution are classified by the adversarially-trained model itself, and an aggregation of its outputs finally constitutes the robust prediction of interest. Experimental evaluation by a well-established benchmark of varied, strong adaptive attacks, across different image datasets and classifier architectures, shows that CARSO is able to defend itself against foreseen and unforeseen threats, including adaptive end-to-end attacks devised for stochastic defences. Paying a tolerable clean accuracy toll, our method improves by a significant margin the state of the art for CIFAR-10 and CIFAR-100 $\ell_\infty$ robust classification accuracy against AutoAttack. Code and pre-trained models are available at https://github.com/emaballarin/CARSO .

arxiv情報

著者 Emanuele Ballarin,Alessio Ansuini,Luca Bortolussi
発行日 2023-10-17 15:20:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG パーマリンク