Beyond Pretrained Features: Noisy Image Modeling Provides Adversarial Defense


マスク イメージ モデリング (MIM) は、自己教師あり視覚表現学習の一般的なフレームワークです。
事前トレーニングと微調整のパラダイム内で、MIM フレームワークは、エンコーダーが微調整に使用されるときに破棄されるデコーダーの助けを借りて、マスクされた画像パッチを再構築することでエンコーダーをトレーニングします。
クリーンな画像での最先端のパフォーマンスにもかかわらず、MIM モデルは敵対的攻撃に対して脆弱であり、実際のアプリケーションを制限しており、この問題に焦点を当てた研究はほとんどありません。
このホワイト ペーパーでは、事前テキスト タスクとしてノイズ除去を使用する MIM の一種であるノイジー イメージ モデリング (NIM) が、優れた事前トレーニング済みの視覚的特徴だけでなく、ダウンストリーム モデルに効果的な敵対的防御も提供することを発見しました。
精度と堅牢性のトレードオフを改善するために、再構成の難しさを制御するハイパーパラメーターをグローバルに設定するのではなく、ランダムな分布からサンプリングし、ノイズ除去された画像でダウンストリーム ネットワークを微調整することをさらに提案します。


Masked Image Modeling (MIM) has been a prevailing framework for self-supervised visual representation learning. Within the pretraining-finetuning paradigm, the MIM framework trains an encoder by reconstructing masked image patches with the help of a decoder which would be abandoned when the encoder is used for finetuning. Despite its state-of-the-art performance on clean images, MIM models are vulnerable to adversarial attacks, limiting its real-world application, and few studies have focused on this issue. In this paper, we have discovered that noisy image modeling (NIM), a variant of MIM that uses denoising as the pre-text task, provides not only good pretrained visual features, but also effective adversarial defense for downstream models. To achieve a better accuracy-robustness trade-off, we further propose to sample the hyperparameter that controls the reconstruction difficulty from random distributions instead of setting it globally, and fine-tune downstream networks with denoised images. Experimental results demonstrate that our pre-trained denoising autoencoders are effective against different white-box, gray-box, and black-box attacks without being trained with adversarial images, while not harming the clean accuracy of fine-tuned models. Source code and models will be made available.


著者 Zunzhi You,Daochang Liu,Chang Xu
発行日 2023-02-02 12:37:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク