要約
攻撃者は微妙なノイズで分類器の入力を意図的に乱し、最終的な予測を変えることができる。提案されている対策のうち、敵対的純化は、敵対的ノイズをフィルタリングするために、入力画像を前処理する生成ネットワークを用いる。本研究では、敵対的純化のために、多重潜在変数生成モデル(Multiple Latent Variable Generative Models:MLVGM)と定義される特定の生成器を提案する。これらのモデルは、粗い特徴と細かい特徴を自然に分離する複数の潜在変数を持つ。この特性を利用し、クラスに関連する情報を維持しつつ、敵対的ノイズを含むあらゆる詳細情報を破棄して再サンプリングするように画像を自動エンコードする。この手順は完全に訓練不要であり、敵対的な精製下流タスクにおける、事前に訓練されたMLVGMの汎化能力を探索する。何十億ものサンプルで訓練された大規模なモデルがないにもかかわらず、小規模なMLVGMは従来の手法とすでに競合しており、基礎モデルとして使用できることを示す。公式コードはhttps://github.com/SerezD/gen_adversarial。
要約(オリジナル)
Attackers can deliberately perturb classifiers’ input with subtle noise, altering final predictions. Among proposed countermeasures, adversarial purification employs generative networks to preprocess input images, filtering out adversarial noise. In this study, we propose specific generators, defined Multiple Latent Variable Generative Models (MLVGMs), for adversarial purification. These models possess multiple latent variables that naturally disentangle coarse from fine features. Taking advantage of these properties, we autoencode images to maintain class-relevant information, while discarding and re-sampling any detail, including adversarial noise. The procedure is completely training-free, exploring the generalization abilities of pre-trained MLVGMs on the adversarial purification downstream task. Despite the lack of large models, trained on billions of samples, we show that smaller MLVGMs are already competitive with traditional methods, and can be used as foundation models. Official code released at https://github.com/SerezD/gen_adversarial.
arxiv情報
著者 | Dario Serez,Marco Cristani,Alessio Del Bue,Vittorio Murino,Pietro Morerio |
発行日 | 2024-12-04 16:40:56+00:00 |
arxivサイト | arxiv_id(pdf) |