Diffusion-Based Adversarial Sample Generation for Improved Stealthiness and Controllability

要約

ニューラル ネットワークは、敵対的なサンプル、つまりモデルを意図的に誤解させるために作成された自然のサンプルの小さなバリエーションの影響を受けやすいことが知られています。
これらは、デジタルおよび物理的なシナリオで勾配ベースの技術を使用して簡単に生成できますが、多くの場合、自然画像の実際のデータ分布とは大きく異なるため、強度とステルス性の間でトレードオフが発生します。
この論文では、現実的な敵対的サンプルを生成するための拡散ベース投影勾配降下法 (Diff-PGD) と呼ばれる新しいフレームワークを提案します。
Diff-PGD は、拡散モデルによって導かれた勾配を利用することで、有効性を維持しながら、敵対的なサンプルが元のデータ分布に近い状態を維持することを保証します。
さらに、当社のフレームワークは、デジタル攻撃、物理世界の攻撃、スタイルベースの攻撃などの特定のタスクに合わせて簡単にカスタマイズできます。
自然なスタイルの敵対的サンプルを生成する既存の方法と比較して、私たちのフレームワークは、敵対的損失の最適化を他の代理損失 (コンテンツ/滑らかさ/スタイル損失など) から分離することを可能にし、より安定して制御可能にします。
最後に、Diff-PGD を使用して生成されたサンプルは、従来のグラジエントベースの方法よりも優れた転写性と精製防止力を備えていることを実証します。
コードは https://github.com/xavihart/Diff-PGD でリリースされます。

要約(オリジナル)

Neural networks are known to be susceptible to adversarial samples: small variations of natural examples crafted to deliberately mislead the models. While they can be easily generated using gradient-based techniques in digital and physical scenarios, they often differ greatly from the actual data distribution of natural images, resulting in a trade-off between strength and stealthiness. In this paper, we propose a novel framework dubbed Diffusion-Based Projected Gradient Descent (Diff-PGD) for generating realistic adversarial samples. By exploiting a gradient guided by a diffusion model, Diff-PGD ensures that adversarial samples remain close to the original data distribution while maintaining their effectiveness. Moreover, our framework can be easily customized for specific tasks such as digital attacks, physical-world attacks, and style-based attacks. Compared with existing methods for generating natural-style adversarial samples, our framework enables the separation of optimizing adversarial loss from other surrogate losses (e.g., content/smoothness/style loss), making it more stable and controllable. Finally, we demonstrate that the samples generated using Diff-PGD have better transferability and anti-purification power than traditional gradient-based methods. Code will be released in https://github.com/xavihart/Diff-PGD

arxiv情報

著者 Haotian Xue,Alexandre Araujo,Bin Hu,Yongxin Chen
発行日 2024-01-17 15:38:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク