要約
広範な研究により、ディープニューラルネットワーク(DNN)は、わずかな敵対的な摂動に弱いことが示されています。特定の攻撃手法から生成された敵対的な例で訓練データを増強することに加え、現在の防御戦略のほとんどは、ロバスト性を向上させるために元のモデル・アーキテクチャ・コンポーネントを修正するか、敵対的な攻撃に対処するためにテスト時間のデータ純化を実行する必要がある。本研究では、訓練中に強力な特徴表現を学習することで、元のモデルの頑健性を大幅に向上できることを実証する。我々はMORELという多目的特徴表現学習アプローチを提案し、分類モデルが摂動にもかかわらず、同じクラス内の入力に対して類似した特徴を生成するよう促す。我々の学習手法は、コサイン類似度損失と多正対照損失が、モデルエンコーダからの自然特徴量と敵対特徴量を整列させ、厳密なクラスタリングを保証するために使用される埋め込み空間を含む。同時に、分類器は正確な予測を達成するように動機づけられる。広範な実験を通して、我々は、我々のアプローチが、ホワイトボックスとブラックボックスの敵対的攻撃に対するDNNの頑健性を大幅に強化し、同様にアーキテクチャの変更やテスト時のデータ精製を必要としない他の方法よりも優れていることを実証する。我々のコードはhttps://github.com/salomonhotegni/MOREL
要約(オリジナル)
Extensive research has shown that deep neural networks (DNNs) are vulnerable to slight adversarial perturbations$-$small changes to the input data that appear insignificant but cause the model to produce drastically different outputs. In addition to augmenting training data with adversarial examples generated from a specific attack method, most of the current defense strategies necessitate modifying the original model architecture components to improve robustness or performing test-time data purification to handle adversarial attacks. In this work, we demonstrate that strong feature representation learning during training can significantly enhance the original model’s robustness. We propose MOREL, a multi-objective feature representation learning approach, encouraging classification models to produce similar features for inputs within the same class, despite perturbations. Our training method involves an embedding space where cosine similarity loss and multi-positive contrastive loss are used to align natural and adversarial features from the model encoder and ensure tight clustering. Concurrently, the classifier is motivated to achieve accurate predictions. Through extensive experiments, we demonstrate that our approach significantly enhances the robustness of DNNs against white-box and black-box adversarial attacks, outperforming other methods that similarly require no architectural changes or test-time data purification. Our code is available at https://github.com/salomonhotegni/MOREL
arxiv情報
著者 | Sedjro Salomon Hotegni,Sebastian Peitz |
発行日 | 2024-10-03 09:28:48+00:00 |
arxivサイト | arxiv_id(pdf) |