Guided Diffusion Model for Adversarial Purification

要約

さまざまなアルゴリズムやフレームワークでのディープニューラルネットワーク(DNN)の幅広い適用により、セキュリティの脅威が懸念事項の1つになっています。
敵対的攻撃は、DNNベースの画像分類器を妨害します。攻撃者は、入力画像に知覚できない敵対的摂動を意図的に追加して、分類器をだますことができます。
この論文では、敵対的な攻撃から分類器を保護するのに役立つ、精製のための誘導拡散モデル(GDMP)と呼ばれる新しい精製アプローチを提案します。
私たちのアプローチの中核は、ノイズ除去拡散確率モデル(DDPM)の拡散ノイズ除去プロセスに精製を組み込むことです。これにより、その拡散プロセスは、徐々に追加されるガウスノイズで敵対的な摂動を沈めることができ、これらのノイズの両方を同時に除去できます。
ガイド付きノイズ除去プロセス。
さまざまなデータセットにわたる包括的な実験で、提案されたGDMPは、敵対的な攻撃によって引き起こされる摂動を浅い範囲に​​減らし、それによって分類の正確さを大幅に改善することが示されています。
GDMPは、堅牢な精度を5%向上させ、CIFAR10データセットに対するPGD攻撃の下で90.1%を取得します。
さらに、GDMPは、やりがいのあるImageNetデータセットで70.94%の堅牢性を実現します。

要約(オリジナル)

With wider application of deep neural networks (DNNs) in various algorithms and frameworks, security threats have become one of the concerns. Adversarial attacks disturb DNN-based image classifiers, in which attackers can intentionally add imperceptible adversarial perturbations on input images to fool the classifiers. In this paper, we propose a novel purification approach, referred to as guided diffusion model for purification (GDMP), to help protect classifiers from adversarial attacks. The core of our approach is to embed purification into the diffusion denoising process of a Denoised Diffusion Probabilistic Model (DDPM), so that its diffusion process could submerge the adversarial perturbations with gradually added Gaussian noises, and both of these noises can be simultaneously removed following a guided denoising process. On our comprehensive experiments across various datasets, the proposed GDMP is shown to reduce the perturbations raised by adversarial attacks to a shallow range, thereby significantly improving the correctness of classification. GDMP improves the robust accuracy by 5%, obtaining 90.1% under PGD attack on the CIFAR10 dataset. Moreover, GDMP achieves 70.94% robustness on the challenging ImageNet dataset.

arxiv情報

著者 Jinyi Wang,Zhaoyang Lyu,Dahua Lin,Bo Dai,Hongfei Fu
発行日 2022-06-29 02:42:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク