要約
これまでの研究では、敵対的な堅牢性に対して堅牢なニューラル分類器を構築する多数の方法が提案されてきましたが、実践者は、許容できないほど厳しいクリーン精度のペナルティのため、依然としてそれらの採用に消極的です。
この論文では、標準分類器とロバスト分類器の出力確率を混合することで、この精度とロバスト性のトレードオフを大幅に軽減します。ここで、標準ネットワークはクリーンな精度を目指して最適化されており、一般にロバストではありません。
正しい例と間違った例に対するロバストな基本分類器の信頼差がこの改善の鍵であることを示します。
直観と経験的証拠を提供することに加えて、現実的な仮定の下で混合分類器の堅牢性を理論的に証明します。
さらに、敵対的入力検出器を混合ネットワークに適応させ、2 つの基本モデルの混合を適応的に調整し、ロバスト性を達成する際の精度ペナルティをさらに軽減します。
「適応スムージング」と呼ばれる、提案された柔軟な方法は、クリーンな精度、堅牢性、または敵対者の検出を向上させる既存の方法または将来の方法と組み合わせて機能することができます。
私たちの経験的な評価では、Auto Attack や適応型攻撃などの強力な攻撃方法が考慮されています。
CIFAR-100 データセットでは、私たちの手法は 38.72% $\ell_\infty$-Auto Attacked ($\epsilon = 8/255$) の精度を維持しながら 85.21% のクリーンな精度を達成し、RobustBench CIFAR で 2 番目に堅牢な手法となりました。
提出時点でのベンチマークは -100 ですが、リストされているすべてのモデルと比較してクリーンな精度が 10 パーセント ポイント向上しています。
私たちのメソッドを実装するコードは、https://github.com/Bai-YT/AdaptiveSmoothing で入手できます。
要約(オリジナル)
While prior research has proposed a plethora of methods that build neural classifiers robust against adversarial robustness, practitioners are still reluctant to adopt them due to their unacceptably severe clean accuracy penalties. This paper significantly alleviates this accuracy-robustness trade-off by mixing the output probabilities of a standard classifier and a robust classifier, where the standard network is optimized for clean accuracy and is not robust in general. We show that the robust base classifier’s confidence difference for correct and incorrect examples is the key to this improvement. In addition to providing intuitions and empirical evidence, we theoretically certify the robustness of the mixed classifier under realistic assumptions. Furthermore, we adapt an adversarial input detector into a mixing network that adaptively adjusts the mixture of the two base models, further reducing the accuracy penalty of achieving robustness. The proposed flexible method, termed ‘adaptive smoothing’, can work in conjunction with existing or even future methods that improve clean accuracy, robustness, or adversary detection. Our empirical evaluation considers strong attack methods, including AutoAttack and adaptive attack. On the CIFAR-100 dataset, our method achieves an 85.21% clean accuracy while maintaining a 38.72% $\ell_\infty$-AutoAttacked ($\epsilon = 8/255$) accuracy, becoming the second most robust method on the RobustBench CIFAR-100 benchmark as of submission, while improving the clean accuracy by ten percentage points compared with all listed models. The code that implements our method is available at https://github.com/Bai-YT/AdaptiveSmoothing.
arxiv情報
著者 | Yatong Bai,Brendon G. Anderson,Aerin Kim,Somayeh Sojoudi |
発行日 | 2023-11-15 11:23:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google