要約
敵対的微調整方法は、敵対的トレーニング方法で事前トレーニングされたモデルを微調整することにより、敵対的堅牢性を強化します。
しかし、我々は、敵対的サンプルのいくつかの特定の潜在的特徴が敵対的摂動によって混乱し、自然サンプルと敵対的サンプルの最後の隠れ層の特徴間のギャップが予期せぬ増加につながることを確認しました。
この問題に対処するために、明示的にモデル化し、特定の潜在的な特徴をさらに削除する、もつれ解除ベースのアプローチを提案します。
敵対的サンプルの特徴から特定の潜在的特徴を分離する特徴分解機能を導入します。これにより、特定の潜在的特徴を排除することで堅牢性が向上します。
さらに、自然サンプルの固有の特徴を活用するために、事前トレーニングされたモデルのクリーンな特徴を、微調整されたモデルの敵対的サンプルの特徴と調整します。
3 つのベンチマーク データセットに対する経験的評価により、私たちのアプローチが既存の敵対的微調整手法と敵対的トレーニング ベースラインを超えていることが実証されています。
要約(オリジナル)
Adversarial fine-tuning methods enhance adversarial robustness via fine-tuning the pre-trained model in an adversarial training manner. However, we identify that some specific latent features of adversarial samples are confused by adversarial perturbation and lead to an unexpectedly increasing gap between features in the last hidden layer of natural and adversarial samples. To address this issue, we propose a disentanglement-based approach to explicitly model and further remove the specific latent features. We introduce a feature disentangler to separate out the specific latent features from the features of the adversarial samples, thereby boosting robustness by eliminating the specific latent features. Besides, we align clean features in the pre-trained model with features of adversarial samples in the fine-tuned model, to benefit from the intrinsic features of natural samples. Empirical evaluations on three benchmark datasets demonstrate that our approach surpasses existing adversarial fine-tuning methods and adversarial training baselines.
arxiv情報
著者 | Nuoyan Zhou,Dawei Zhou,Decheng Liu,Nannan Wang,Xinbo Gao |
発行日 | 2024-12-10 16:28:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google