Releasing Inequality Phenomena in $L_{\infty}$-Adversarial Training via Input Gradient Distillation

要約

敵対的な例が出現し、それが DNN にもたらした壊滅的な劣化を示して以来、多くの敵対的防御方法が考案されてきましたが、その中で最も効果的なのは敵対的トレーニングであると考えられています。
しかし、最近の研究では、$l_{\infty}$-敵対的訓練における不等式現象が示され、少数の重要なピクセルがi.i.d.によって摂動されると、$l_{\infty}$-敵対的訓練されたモデルが脆弱になることが明らかになりました。
騒音や閉塞。
この論文では、$l_{\infty}$-敵対的訓練における不等式現象を解放するために、入力勾配蒸留(IGD)と呼ばれるシンプルかつ効果的な方法を提案します。
実験によると、IGD は、PGDAT と比較して、モデルの敵対的堅牢性を維持しながら、$l_{\infty}$ で敵対的にトレーニングされたモデルの誘導ノイズと誘導オクルージョンに対するエラー率を最大 60\% および 16.53\% まで低減し、ノイズの多いものまで低減することが示されています。
Imagenet-C の画像は最大 21.11\% 増加します。
さらに、モデルの顕著性マップの等価性によってそのような堅牢性が向上する理由を正式に説明します。

要約(オリジナル)

Since adversarial examples appeared and showed the catastrophic degradation they brought to DNN, many adversarial defense methods have been devised, among which adversarial training is considered the most effective. However, a recent work showed the inequality phenomena in $l_{\infty}$-adversarial training and revealed that the $l_{\infty}$-adversarially trained model is vulnerable when a few important pixels are perturbed by i.i.d. noise or occluded. In this paper, we propose a simple yet effective method called Input Gradient Distillation (IGD) to release the inequality phenomena in $l_{\infty}$-adversarial training. Experiments show that while preserving the model’s adversarial robustness, compared to PGDAT, IGD decreases the $l_{\infty}$-adversarially trained model’s error rate to inductive noise and inductive occlusion by up to 60\% and 16.53\%, and to noisy images in Imagenet-C by up to 21.11\%. Moreover, we formally explain why the equality of the model’s saliency map can improve such robustness.

arxiv情報

著者 Junxi Chen,Junhao Dong,Xiaohua Xie
発行日 2023-05-17 15:03:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク