Improving the Accuracy-Robustness Trade-Off of Classifiers via Adaptive Smoothing

要約

これまでの研究では、ニューラル分類器の敵対的堅牢性を強化する多数の手法が提案されてきましたが、実践者は、クリーンな精度において許容できないほど厳しいペナルティが生じるため、これらの手法を採用することに依然として消極的です。
この論文では、標準分類器とロバスト モデルの出力確率を混合することによって、標準ネットワークがクリーンな精度を目指して最適化されており、一般にロバストではない場合、この精度とロバスト性のトレードオフが大幅に軽減できることを示します。
正しい例と間違った例に対するロバストな基本分類器の信頼差が、この改善の重要な要素であることを示します。
直観的かつ経験的な証拠を提供することに加えて、現実的な仮定の下で混合分類器の堅牢性も理論的に証明します。
さらに、敵対的入力検出器を混合ネットワークに適応させ、2 つの基本モデルの混合を適応的に調整し、ロバスト性を達成する際の精度ペナルティをさらに軽減します。
「適応スムージング」と呼ばれる、提案された柔軟な方法は、クリーンな精度、堅牢性、または敵対者の検出を向上させる既存の方法または将来の方法と組み合わせて機能することができます。
私たちの経験的な評価では、Auto Attack や適応型攻撃などの強力な攻撃方法が考慮されています。
CIFAR-100 データセットでは、私たちの手法は 38.72% $\ell_\infty$-Auto Attacked ($\epsilon$=8/255) 精度を維持しながら 85.21% のクリーンな精度を達成し、RobustBench CIFAR で 2 番目に堅牢な手法となりました。
提出時点でのベンチマークは -100 ですが、リストされているすべてのモデルと比較してクリーンな精度が 10 パーセント ポイント向上しています。
私たちのメソッドを実装するコードは、https://github.com/Bai-YT/AdaptiveSmoothing で入手できます。

要約(オリジナル)

While prior research has proposed a plethora of methods that enhance the adversarial robustness of neural classifiers, practitioners are still reluctant to adopt these techniques due to their unacceptably severe penalties in clean accuracy. This paper shows that by mixing the output probabilities of a standard classifier and a robust model, where the standard network is optimized for clean accuracy and is not robust in general, this accuracy-robustness trade-off can be significantly alleviated. We show that the robust base classifier’s confidence difference for correct and incorrect examples is the key ingredient of this improvement. In addition to providing intuitive and empirical evidence, we also theoretically certify the robustness of the mixed classifier under realistic assumptions. Furthermore, we adapt an adversarial input detector into a mixing network that adaptively adjusts the mixture of the two base models, further reducing the accuracy penalty of achieving robustness. The proposed flexible method, termed ‘adaptive smoothing’, can work in conjunction with existing or even future methods that improve clean accuracy, robustness, or adversary detection. Our empirical evaluation considers strong attack methods, including AutoAttack and adaptive attack. On the CIFAR-100 dataset, our method achieves an 85.21% clean accuracy while maintaining a 38.72% $\ell_\infty$-AutoAttacked ($\epsilon$=8/255) accuracy, becoming the second most robust method on the RobustBench CIFAR-100 benchmark as of submission, while improving the clean accuracy by ten percentage points compared with all listed models. The code that implements our method is available at https://github.com/Bai-YT/AdaptiveSmoothing.

arxiv情報

著者 Yatong Bai,Brendon G. Anderson,Aerin Kim,Somayeh Sojoudi
発行日 2023-05-23 15:48:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.CR, cs.CV, cs.LG パーマリンク