Mitigating Feature Gap for Adversarial Robustness by Feature Disentanglement

要約

ディープ ニューラル ネットワークは、敵対的なサンプルに対して脆弱です。
敵対的微調整手法は、敵対的トレーニング方法で自然に事前トレーニングされたモデルを微調整することにより、敵対的堅牢性を強化することを目的としています。
しかし、我々は、敵対的サンプルの一部の潜在的特徴が敵対的摂動によって混乱し、自然サンプルと敵対的サンプルの最後の隠れ層の特徴間のギャップが予期せぬ増加につながることを確認しました。
この問題に対処するために、特徴ギャップの原因となる潜在的な特徴を明示的にモデル化し、さらに除去するための、もつれ解除ベースのアプローチを提案します。
具体的には、敵対的サンプルの特徴から潜在的な特徴を分離する特徴分解機能を導入します。これにより、潜在的な特徴を排除することで堅牢性が向上します。
さらに、事前トレーニングされたモデルの特徴を、微調整されたモデルの敵対的サンプルの特徴と調整して、混乱することなく自然サンプルの特徴をさらに活用できるようにします。
3 つのベンチマーク データセットに対する経験的評価により、私たちのアプローチが既存の敵対的微調整手法と敵対的トレーニング ベースラインを超えていることが実証されています。

要約(オリジナル)

Deep neural networks are vulnerable to adversarial samples. Adversarial fine-tuning methods aim to enhance adversarial robustness through fine-tuning the naturally pre-trained model in an adversarial training manner. However, we identify that some latent features of adversarial samples are confused by adversarial perturbation and lead to an unexpectedly increasing gap between features in the last hidden layer of natural and adversarial samples. To address this issue, we propose a disentanglement-based approach to explicitly model and further remove the latent features that cause the feature gap. Specifically, we introduce a feature disentangler to separate out the latent features from the features of the adversarial samples, thereby boosting robustness by eliminating the latent features. Besides, we align features in the pre-trained model with features of adversarial samples in the fine-tuned model, to further benefit from the features from natural samples without confusion. Empirical evaluations on three benchmark datasets demonstrate that our approach surpasses existing adversarial fine-tuning methods and adversarial training baselines.

arxiv情報

著者 Nuoyan Zhou,Dawei Zhou,Decheng Liu,Xinbo Gao,Nannan Wang
発行日 2024-01-26 08:38:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク