要約
敵対的な訓練は、敵対的な摂動に対して堅牢であるために、深いニューラルネットワークを訓練するための広く適用されたアプローチです。
しかし、敵対的な訓練は実際に経験的な成功を達成していますが、なぜ敵対的な例が存在するのか、どのように敵対的なトレーニング方法がモデルの堅牢性を改善するかはまだ不明のままです。
この論文では、機能学習理論の観点から敵対的な例と敵対的な訓練アルゴリズムの理論的理解を提供します。
具体的には、構造化されたデータは、摂動に耐性があるがまばらである堅牢な機能と、摂動に敏感で密集している非げっ歯類の特徴の2つのタイプの機能で構成できる複数の分類設定に焦点を当てています。
2層の滑らかなリレリューコンボリューションニューラルネットワークを訓練して、構造化されたデータを学習します。
まず、標準のトレーニング(経験的リスクよりも勾配降下)を使用することにより、ネットワーク学習者は主に堅牢な特徴ではなく非堅牢な機能を学習することを証明します。
– 頑丈な機能の方向。
次に、グラデーションベースの敵対的トレーニングアルゴリズムを検討します。これは、勾配上昇を実行して敵対例を見つけ、敵の例で経験的リスクよりも勾配降下を実行してモデルを更新します。
敵対的なトレーニング方法は、堅牢な機能学習を実証し、ネットワークの堅牢性を向上させるための非積極的な機能学習を抑制できることを示しています。
最後に、MNIST、CIFAR10、SVHNを含む実数データセットでの実験で理論的発見を経験的に検証します。
要約(オリジナル)
Adversarial training is a widely-applied approach to training deep neural networks to be robust against adversarial perturbation. However, although adversarial training has achieved empirical success in practice, it still remains unclear why adversarial examples exist and how adversarial training methods improve model robustness. In this paper, we provide a theoretical understanding of adversarial examples and adversarial training algorithms from the perspective of feature learning theory. Specifically, we focus on a multiple classification setting, where the structured data can be composed of two types of features: the robust features, which are resistant to perturbation but sparse, and the non-robust features, which are susceptible to perturbation but dense. We train a two-layer smoothed ReLU convolutional neural network to learn our structured data. First, we prove that by using standard training (gradient descent over the empirical risk), the network learner primarily learns the non-robust feature rather than the robust feature, which thereby leads to the adversarial examples that are generated by perturbations aligned with negative non-robust feature directions. Then, we consider the gradient-based adversarial training algorithm, which runs gradient ascent to find adversarial examples and runs gradient descent over the empirical risk at adversarial examples to update models. We show that the adversarial training method can provably strengthen the robust feature learning and suppress the non-robust feature learning to improve the network robustness. Finally, we also empirically validate our theoretical findings with experiments on real-image datasets, including MNIST, CIFAR10 and SVHN.
arxiv情報
著者 | Binghui Li,Yuanzhi Li |
発行日 | 2025-02-07 16:05:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google