MOREL: Enhancing Adversarial Robustness through Multi-Objective Representation Learning

要約

広範な研究により、ディープ ニューラル ネットワーク (DNN) は、一見重要ではないように見えてもモデルが大幅に異なる出力を生成する入力データに対するわずかな敵対的な摂動に対して脆弱であることが示されています。
特定の攻撃方法から生成された敵対的な例でトレーニング データを強化することに加えて、現在の防御戦略のほとんどでは、元のモデル アーキテクチャ コンポーネントを変更して堅牢性を向上させたり、敵対的な攻撃に対処するためにテスト時のデータ純化を実行したりする必要があります。
この研究では、トレーニング中に強力な特徴表現を学習することで、元のモデルの堅牢性が大幅に向上することを実証します。
我々は、摂動にもかかわらず、分類モデルが同じクラス内の入力に対して同様の特徴を生成することを奨励する、多目的特徴表現学習アプローチである MOREL を提案します。
私たちのトレーニング方法には、コサイン類似性損失とマルチポジティブコントラスト損失を使用して、モデルエンコーダーからの自然な特徴と敵対的な特徴を位置合わせし、厳密なクラスタリングを保証する埋め込み空間が含まれます。
同時に、分類器は正確な予測を達成するよう動機づけられます。
広範な実験を通じて、私たちのアプローチはホワイトボックスおよびブラックボックスの敵対的攻撃に対するDNNの堅牢性を大幅に強化し、同様にアーキテクチャの変更やテスト時のデータ精製を必要としない他の方法よりも優れていることを実証しました。
私たちのコードは https://github.com/salomonhotegni/MOREL で入手できます。

要約(オリジナル)

Extensive research has shown that deep neural networks (DNNs) are vulnerable to slight adversarial perturbations$-$small changes to the input data that appear insignificant but cause the model to produce drastically different outputs. In addition to augmenting training data with adversarial examples generated from a specific attack method, most of the current defense strategies necessitate modifying the original model architecture components to improve robustness or performing test-time data purification to handle adversarial attacks. In this work, we demonstrate that strong feature representation learning during training can significantly enhance the original model’s robustness. We propose MOREL, a multi-objective feature representation learning approach, encouraging classification models to produce similar features for inputs within the same class, despite perturbations. Our training method involves an embedding space where cosine similarity loss and multi-positive contrastive loss are used to align natural and adversarial features from the model encoder and ensure tight clustering. Concurrently, the classifier is motivated to achieve accurate predictions. Through extensive experiments, we demonstrate that our approach significantly enhances the robustness of DNNs against white-box and black-box adversarial attacks, outperforming other methods that similarly require no architectural changes or test-time data purification. Our code is available at https://github.com/salomonhotegni/MOREL

arxiv情報

著者 Sedjro Salomon Hotegni,Sebastian Peitz
発行日 2024-10-02 16:05:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク