Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness

要約

CLIP のような大規模な事前トレーニング済みビジョン言語モデルは、さまざまなタスクにわたって優れたパフォーマンスを実証し、顕著なゼロショット汎化能力を示しますが、知覚できない敵対的な例に対しては脆弱でもあります。
既存の作品は通常、敵対的な例に対する防御方法として敵対的なトレーニング (微調整) を採用しています。
ただし、CLIP モデルに直接適用すると過剰適合が発生し、モデルの一般化能力が損なわれる可能性があります。
この論文では、事前トレーニング済みモデルの誘導型敵対的微調整 (PMG-AFT) 手法を提案します。この手法は、補助ブランチを慎重に設計することで元の事前トレーニング済みモデルからの監視を活用し、モデルのゼロショット敵対的堅牢性を強化します。
具体的には、PMG-AFT は、ターゲット モデル内の敵対的な例の特徴と事前トレーニングされたモデル内の特徴の間の距離を最小限に抑え、事前トレーニングされたモデルによって既にキャプチャされている一般化特徴を保存することを目的としています。
15 のゼロショット データセットに対する広範な実験により、PMG-AFT が最先端の手法を大幅に上回り、トップ 1 のロバストな精度が平均 4.99% 向上することが実証されました。
さらに、私たちのアプローチにより、クリーンな精度が常に平均 8.72% 向上します。
私たちのコードは https://github.com/serendipity1122/Pre-trained-Model-Guided-Fine-Tuning-for-Zero-Shot-Adversarial-Robustness で入手できます。

要約(オリジナル)

Large-scale pre-trained vision-language models like CLIP have demonstrated impressive performance across various tasks, and exhibit remarkable zero-shot generalization capability, while they are also vulnerable to imperceptible adversarial examples. Existing works typically employ adversarial training (fine-tuning) as a defense method against adversarial examples. However, direct application to the CLIP model may result in overfitting, compromising the model’s capacity for generalization. In this paper, we propose Pre-trained Model Guided Adversarial Fine-Tuning (PMG-AFT) method, which leverages supervision from the original pre-trained model by carefully designing an auxiliary branch, to enhance the model’s zero-shot adversarial robustness. Specifically, PMG-AFT minimizes the distance between the features of adversarial examples in the target model and those in the pre-trained model, aiming to preserve the generalization features already captured by the pre-trained model. Extensive Experiments on 15 zero-shot datasets demonstrate that PMG-AFT significantly outperforms the state-of-the-art method, improving the top-1 robust accuracy by an average of 4.99%. Furthermore, our approach consistently improves clean accuracy by an average of 8.72%. Our code is available at https://github.com/serendipity1122/Pre-trained-Model-Guided-Fine-Tuning-for-Zero-Shot-Adversarial-Robustness.

arxiv情報

著者 Sibo Wang,Jie Zhang,Zheng Yuan,Shiguang Shan
発行日 2024-04-10 11:58:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク