Shedding More Light on Robust Classifiers under the lens of Energy-based Models


堅牢な識別分類子をエネルギーベース モデル (EBM) として再解釈することにより、敵対的トレーニング (AT) のダイナミクスに対する新しい見方を提供します。
AT 中のエネルギー状況を分析したところ、モデルの観点から見ると、ターゲットを絞っていない攻撃により、元のデータよりもはるかに多くの敵対的イメージが分散内 (低エネルギー) で生成されることが明らかになりました。
私たちの徹底した分析に基づいて、AT エネルギーダイナミクスを解釈することでより良い理解がどのように得られるかを示す、新しい理論的および実践的な結果を提示します。 (1) AT ダイナミクスは 3 つのフェーズによって支配され、第 3 フェーズではロバストな過学習が発生し、両者の間で急激な乖離が生じます。
自然エネルギーと敵対的エネルギー (2) 代理損失最小化 (TRADES) による TRadeoff に触発された敵対的防御の損失をエネルギーの観点から書き直すことにより、TRADES が自然エネルギーを敵対的エネルギーと調整することによって暗黙的に過剰適合を軽減することを示します (3)
) 私たちは、最近のすべての最先端のロバスト分類器がエネルギー状況を平滑化していることを経験的に示し、AT の理解と EBM の傘下での損失関数の重み付けに関するさまざまな研究を調整します。
私たちは、厳密な証拠に動機付けられて、加重エネルギー敵対的トレーニング (WEAT) を提案します。これは、CIFAR-10 や SVHN などの複数のベンチマークで最先端に匹敵し、CIFAR-100 を超える堅牢な精度を生み出す新しいサンプル重み付けスキームです。
さらに、ロバストな分類器はその生成機能の強度と品質が異なることを示し、この機能を推進する簡単な方法を提供し、生成モデリングのトレーニングを行わずにロバストな分類器を使用して顕著なインセプション スコア (IS) と FID を達成します。
結果を再現するコードは、 で入手できます。


By reinterpreting a robust discriminative classifier as Energy-based Model (EBM), we offer a new take on the dynamics of adversarial training (AT). Our analysis of the energy landscape during AT reveals that untargeted attacks generate adversarial images much more in-distribution (lower energy) than the original data from the point of view of the model. Conversely, we observe the opposite for targeted attacks. On the ground of our thorough analysis, we present new theoretical and practical results that show how interpreting AT energy dynamics unlocks a better understanding: (1) AT dynamic is governed by three phases and robust overfitting occurs in the third phase with a drastic divergence between natural and adversarial energies (2) by rewriting the loss of TRadeoff-inspired Adversarial DEfense via Surrogate-loss minimization (TRADES) in terms of energies, we show that TRADES implicitly alleviates overfitting by means of aligning the natural energy with the adversarial one (3) we empirically show that all recent state-of-the-art robust classifiers are smoothing the energy landscape and we reconcile a variety of studies about understanding AT and weighting the loss function under the umbrella of EBMs. Motivated by rigorous evidence, we propose Weighted Energy Adversarial Training (WEAT), a novel sample weighting scheme that yields robust accuracy matching the state-of-the-art on multiple benchmarks such as CIFAR-10 and SVHN and going beyond in CIFAR-100 and Tiny-ImageNet. We further show that robust classifiers vary in the intensity and quality of their generative capabilities, and offer a simple method to push this capability, reaching a remarkable Inception Score (IS) and FID using a robust classifier without training for generative modeling. The code to reproduce our results is available at .


著者 Mujtaba Hussain Mirza,Maria Rosaria Briglia,Senad Beadini,Iacopo Masi
発行日 2024-09-10 12:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, cs.LG パーマリンク