Adversarial Feature Alignment: Balancing Robustness and Accuracy in Deep Learning via Adversarial Training

要約

深層学習モデルの精度は向上し続けていますが、依然として敵対的な攻撃に対して脆弱であり、多くの場合、敵対的な例の誤分類につながります。
敵対的トレーニングは、これらの攻撃に対する堅牢性を高めることでこの問題を軽減するために使用されます。
ただし、このアプローチでは通常、クリーンで敵対的ではないサンプルに対するモデルの標準精度が低下します。
深層学習モデルがセキュリティの堅牢性と精度の両方のバランスを取る必要があることは明らかですが、このバランスを達成することは依然として困難であり、根本的な理由はまだ解明されていません。
この論文では、これらの問題に対処するために、Adversarial Feature Alignment (AFA) と呼ばれる新しい敵対的トレーニング方法を提案します。
私たちの研究は、サンプルが良性であるか敵対的であるかに関係なく、特徴空間内のずれが誤分類につながることが多いという興味深い洞察を明らかにしました。
AFA は、潜在的な特徴の不整合を軽減する対照学習に基づく新しい最適化アルゴリズムを採用することで、このリスクを軽減します。
当社の評価を通じて、AFA の優れたパフォーマンスが実証されました。
ベースライン AFA は、クロスエントロピーと比較して、CIFAR10 および CIFAR100 でのクリーン精度の低下をそれぞれ 1.86% および 8.91% に最小限に抑えながら、以前の敵対的対比学習手法よりも高い堅牢な精度を実現します。
また、最近の拡散モデルを使用したデータ拡張を伴う AFA と TRADES の共同最適化により、最先端の精度と堅牢性が達成されることも示します。

要約(オリジナル)

Deep learning models continue to advance in accuracy, yet they remain vulnerable to adversarial attacks, which often lead to the misclassification of adversarial examples. Adversarial training is used to mitigate this problem by increasing robustness against these attacks. However, this approach typically reduces a model’s standard accuracy on clean, non-adversarial samples. The necessity for deep learning models to balance both robustness and accuracy for security is obvious, but achieving this balance remains challenging, and the underlying reasons are yet to be clarified. This paper proposes a novel adversarial training method called Adversarial Feature Alignment (AFA), to address these problems. Our research unveils an intriguing insight: misalignment within the feature space often leads to misclassification, regardless of whether the samples are benign or adversarial. AFA mitigates this risk by employing a novel optimization algorithm based on contrastive learning to alleviate potential feature misalignment. Through our evaluations, we demonstrate the superior performance of AFA. The baseline AFA delivers higher robust accuracy than previous adversarial contrastive learning methods while minimizing the drop in clean accuracy to 1.86% and 8.91% on CIFAR10 and CIFAR100, respectively, in comparison to cross-entropy. We also show that joint optimization of AFA and TRADES, accompanied by data augmentation using a recent diffusion model, achieves state-of-the-art accuracy and robustness.

arxiv情報

著者 Leo Hyun Park,Jaeuk Kim,Myung Gyo Oh,Jaewoo Park,Taekyoung Kwon
発行日 2024-02-19 14:51:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG, D.2.7 パーマリンク