要約
敵対的訓練(AT)は、敵対的な例(AE)に対するディープニューラルネットワーク(DNN)の頑健性を向上させるための最先端の手法として広く考えられている。それにもかかわらず、最近の研究では、敵対的学習されたモデルは、その適用性を制限する不公平な問題を引き起こしやすいことが明らかになっている。本論文では、この限界は、深刻な敵対的信頼度の過剰適合、すなわち、過信を持つ特定の敵対的事例に起因する可能性があることを経験的に観察する。この問題を緩和するために、我々はHAMを提案する。HAMは適応的な方法で、簡単な敵対的事例を破棄しながら、難しい敵対的事例をマイニングすることに集中する。具体的には、HAMは、損失値を計算する際に判定境界を越えるために必要なステップサイズの観点から、ハードなAEを識別する。さらに、AE生成の初期段階で簡単な例を破棄するアーリードロップメカニズムを組み込むことで、効率的なATを実現する。CIFAR-10、SVHN、Imagenetteを用いた広範な実験結果から、HAMは最新の敵対的学習手法と比較して、計算コストを削減しつつ、ロバスト公平性の大幅な向上を達成することが実証された。コードは公開される予定である。
要約(オリジナル)
Adversarial training (AT) is widely considered the state-of-the-art technique for improving the robustness of deep neural networks (DNNs) against adversarial examples (AE). Nevertheless, recent studies have revealed that adversarially trained models are prone to unfairness problems, restricting their applicability. In this paper, we empirically observe that this limitation may be attributed to serious adversarial confidence overfitting, i.e., certain adversarial examples with overconfidence. To alleviate this problem, we propose HAM, a straightforward yet effective framework via adaptive Hard Adversarial example Mining.HAM concentrates on mining hard adversarial examples while discarding the easy ones in an adaptive fashion. Specifically, HAM identifies hard AEs in terms of their step sizes needed to cross the decision boundary when calculating loss value. Besides, an early-dropping mechanism is incorporated to discard the easy examples at the initial stages of AE generation, resulting in efficient AT. Extensive experimental results on CIFAR-10, SVHN, and Imagenette demonstrate that HAM achieves significant improvement in robust fairness while reducing computational cost compared to several state-of-the-art adversarial training methods. The code will be made publicly available.
arxiv情報
著者 | Chenhao Lin,Xiang Ji,Yulong Yang,Qian Li,Chao Shen,Run Wang,Liming Fang |
発行日 | 2023-08-03 15:33:24+00:00 |
arxivサイト | arxiv_id(pdf) |