Adversarial Examples are Misaligned in Diffusion Model Manifolds

要約

近年、拡散モデル (DM) は、データ分布の近似に成功し、最先端の生成結果を生み出すことに大きな注目を集めています。
それにもかかわらず、これらのモデルの多用途性は、その生成機能を超えて、特に画像修復、セグメンテーション、敵対的堅牢性などのさまざまなビジョン アプリケーションを包含します。
この研究は、拡散モデルのレンズを通して敵対的攻撃を調査することに特化しています。
ただし、私たちの目的には、画像分類器の敵対的堅牢性を強化することは含まれていません。
代わりに、拡散モデルを利用して、これらの攻撃によって画像に導入された異常を検出および分析することに重点を置いています。
そのために、拡散モデルを使用した変換プロセスを受けたときの敵対的な例の分布の整合性を体系的に検査します。
このアプローチの有効性は、後者のさまざまな画像サイズを含め、CIFAR-10 と ImageNet データセット全体で評価されます。
この結果は、無害な画像と攻撃された画像を効果的に識別する注目に値する能力を実証し、敵対的なインスタンスが学習された DM の多様体と一致しないという説得力のある証拠を提供します。

要約(オリジナル)

In recent years, diffusion models (DMs) have drawn significant attention for their success in approximating data distributions, yielding state-of-the-art generative results. Nevertheless, the versatility of these models extends beyond their generative capabilities to encompass various vision applications, such as image inpainting, segmentation, adversarial robustness, among others. This study is dedicated to the investigation of adversarial attacks through the lens of diffusion models. However, our objective does not involve enhancing the adversarial robustness of image classifiers. Instead, our focus lies in utilizing the diffusion model to detect and analyze the anomalies introduced by these attacks on images. To that end, we systematically examine the alignment of the distributions of adversarial examples when subjected to the process of transformation using diffusion models. The efficacy of this approach is assessed across CIFAR-10 and ImageNet datasets, including varying image sizes in the latter. The results demonstrate a notable capacity to discriminate effectively between benign and attacked images, providing compelling evidence that adversarial instances do not align with the learned manifold of the DMs.

arxiv情報

著者 Peter Lorenz,Ricard Durall,Janis Keuper
発行日 2024-01-17 14:37:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV パーマリンク