要約
この作業では、イメージ分類のための新しい敵対的な防御メカニズム – カルソ – 相乗的な堅牢性を向上させる方法での敵対的訓練と敵対的浄化のパラダイムをブレンドすることを提案します。
この方法は、敵対的に訓練された分類器の上に構築され、潜在的に混乱した入力に関連する内部表現を暫定的なクリーン再構成の分布にマッピングすることを学びます。
このような分布からの複数のサンプルは、同じ敵対的に訓練されたモデルによって分類され、その出力の慎重に選択された集約は、最終的に関心の強い予測を構成します。
さまざまな画像データセットにわたる強力な適応攻撃の確立されたベンチマークによる実験的評価は、Carsoが確率的防御のために考案された適応エンドツーエンドのホワイトボックス攻撃から身を守ることができることを示しています。
控えめなクリーン精度の料金を支払うと、私たちの方法は、CIFAR-10、CIFAR-100、およびTinyImagenet-200の最先端の最先端を大幅に改善します。
コード、および事前に訓練されたモデルを取得するための手順は、https://github.com/emaballarin/carsoで入手できます。
要約(オリジナル)
In this work, we propose a novel adversarial defence mechanism for image classification – CARSO – blending the paradigms of adversarial training and adversarial purification in a synergistic robustness-enhancing way. The method builds upon an adversarially-trained classifier, and learns to map its internal representation associated with a potentially perturbed input onto a distribution of tentative clean reconstructions. Multiple samples from such distribution are classified by the same adversarially-trained model, and a carefully chosen aggregation of its outputs finally constitutes the robust prediction of interest. Experimental evaluation by a well-established benchmark of strong adaptive attacks, across different image datasets, shows that CARSO is able to defend itself against adaptive end-to-end white-box attacks devised for stochastic defences. Paying a modest clean accuracy toll, our method improves by a significant margin the state-of-the-art for Cifar-10, Cifar-100, and TinyImageNet-200 $\ell_\infty$ robust classification accuracy against AutoAttack. Code, and instructions to obtain pre-trained models are available at: https://github.com/emaballarin/CARSO .
arxiv情報
著者 | Emanuele Ballarin,Alessio Ansuini,Luca Bortolussi |
発行日 | 2025-02-19 18:39:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google