New Paradigm of Adversarial Training: Breaking Inherent Trade-Off between Accuracy and Robustness via Dummy Classes

要約

敵対的トレーニング (AT) は、DNN の堅牢性を強化する最も効果的な方法の 1 つです。
ただし、既存の AT 手法には、敵対的な堅牢性とクリーンな精度の間の固有のトレードオフがあり、それが現実世界への展開を大きく妨げています。
この問題は現在の AT パラダイム内で広く研究されていますが、既存の AT 手法では、PGD-AT のような単純なベースラインと比較して堅牢性が大幅に向上することなく、現在までにクリーン精度が 10% 以上低下するのが一般的です。
この固有のトレードオフにより、対応する良性サンプルと敵対的サンプルを同じクラスとして学習することを前提とする現在の AT パラダイムが、本質的に矛盾している可能性があるクリーンで堅牢な目的を不適切に組み合わせているのではないかという疑問が生じます。
この研究では、驚くべきことに、CIFAR-10 敵対的サンプルの最大 40% が、さまざまな AT 手法および堅牢なモデルにわたって常にそのような仮定を満たしていないことを明らかにし、現在の AT パラダイムに改善の余地があることを明確に示しています。
したがって、この厳しすぎる仮定に由来するクリーン学習とロバスト学習の間の緊張を緩和するために、摂動後に分布がシフトしたハード敵対的サンプルに対応することを目的として、元のクラスごとに追加のダミークラスを導入することにより、新しい AT パラダイムを提案します。
堅牢性
これらの敵対的サンプルは、予測されたダミー クラスから対応する元のクラスへのランタイム リカバリによって実現でき、クリーン ラーニングとの妥協を排除します。
この新しいパラダイムに基づいて、我々は、DUmmy Classes-based Adversarial Training (DUCAT) という名前の新しいプラグアンドプレイ AT テクノロジーを提案します。
CIFAR-10、CIFAR-100、Tiny-ImageNet に関する広範な実験により、DUCAT が最先端のベンチマークと比較してクリーンな精度と敵対的堅牢性を同時に向上させ、既存の固有のトレードオフを効果的に打破することが実証されました。

要約(オリジナル)

Adversarial Training (AT) is one of the most effective methods to enhance the robustness of DNNs. However, existing AT methods suffer from an inherent trade-off between adversarial robustness and clean accuracy, which seriously hinders their real-world deployment. While this problem has been widely studied within the current AT paradigm, existing AT methods still typically experience a reduction in clean accuracy by over 10% to date, without significant improvements in robustness compared with simple baselines like PGD-AT. This inherent trade-off raises a question: whether the current AT paradigm, which assumes to learn the corresponding benign and adversarial samples as the same class, inappropriately combines clean and robust objectives that may be essentially inconsistent. In this work, we surprisingly reveal that up to 40% of CIFAR-10 adversarial samples always fail to satisfy such an assumption across various AT methods and robust models, explicitly indicating the improvement room for the current AT paradigm. Accordingly, to relax the tension between clean and robust learning derived from this overstrict assumption, we propose a new AT paradigm by introducing an additional dummy class for each original class, aiming to accommodate the hard adversarial samples with shifted distribution after perturbation. The robustness w.r.t. these adversarial samples can be achieved by runtime recovery from the predicted dummy classes to their corresponding original ones, eliminating the compromise with clean learning. Building on this new paradigm, we propose a novel plug-and-play AT technology named DUmmy Classes-based Adversarial Training (DUCAT). Extensive experiments on CIFAR-10, CIFAR-100, and Tiny-ImageNet demonstrate that the DUCAT concurrently improves clean accuracy and adversarial robustness compared with state-of-the-art benchmarks, effectively breaking the existing inherent trade-off.

arxiv情報

著者 Yanyun Wang,Li Liu,Zi Liang,Qingqing Ye,Haibo Hu
発行日 2024-10-16 15:36:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, I.2.6 パーマリンク