DIFFender: Diffusion-Based Adversarial Defense against Patch Attacks in the Physical World

要約

物理世界における敵対的攻撃、特にパッチ攻撃は、深層学習モデルの堅牢性と信頼性に対して重大な脅威をもたらします。
パッチ攻撃に対する信頼性の高い防御策を開発することは、現実世界のアプリケーションにとって非常に重要ですが、この分野における現在の研究は大幅に不足しています。
この論文では、事前トレーニングされた拡散モデルを活用して、潜在的な敵対的パッチ攻撃に対する位置特定と防御の両方を実行する新しい防御方法である DIFFender を提案します。
DIFFender は、パッチのローカリゼーションと復元という 2 つの主要な段階で構成されるパイプラインとして設計されています。
位置特定の段階では、拡散モデルの興味深い特性を利用して、敵対的なパッチの位置を効果的に特定します。
復元段階では、テキスト誘導拡散モデルを採用して、視覚コンテンツの完全性を維持しながら、画像内の敵対的な領域を除去します。
さらに、シンプルかつ効率的なチューニングを促進するために、数ショットのプロンプトチューニングアルゴリズムを設計し、学習した表現を下流のタスクに簡単に転送できるようにし、2 つのステージを共同で最適化します。
私たちは、画像分類と顔認識に関する広範な実験を実施し、DIFFender が強力な適応型攻撃に対して優れた堅牢性を示し、さまざまなシナリオ、多様な分類器、および複数の攻撃手法にわたって適切に一般化できることを実証しました。

要約(オリジナル)

Adversarial attacks in the physical world, particularly patch attacks, pose significant threats to the robustness and reliability of deep learning models. Developing reliable defenses against patch attacks is crucial for real-world applications, yet current research in this area is severely lacking. In this paper, we propose DIFFender, a novel defense method that leverages the pre-trained diffusion model to perform both localization and defense against potential adversarial patch attacks. DIFFender is designed as a pipeline consisting of two main stages: patch localization and restoration. In the localization stage, we exploit the intriguing properties of a diffusion model to effectively identify the locations of adversarial patches. In the restoration stage, we employ a text-guided diffusion model to eliminate adversarial regions in the image while preserving the integrity of the visual content. Additionally, we design a few-shot prompt-tuning algorithm to facilitate simple and efficient tuning, enabling the learned representations to easily transfer to downstream tasks, which optimize two stages jointly. We conduct extensive experiments on image classification and face recognition to demonstrate that DIFFender exhibits superior robustness under strong adaptive attacks and generalizes well across various scenarios, diverse classifiers, and multiple attack methods.

arxiv情報

著者 Caixin Kang,Yinpeng Dong,Zhengyi Wang,Shouwei Ruan,Hang Su,Xingxing Wei
発行日 2023-06-15 13:33:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG パーマリンク