Adversarial Examples are Misaligned in Diffusion Model Manifolds

要約

近年、拡散モデル(Diffusion Model: DM)は、データ分布の近似に成功し、最先端の生成結果をもたらすことで大きな注目を集めている。とはいえ、拡散モデルの汎用性は、その生成能力にとどまらず、画像のインペインティング、セグメンテーション、敵対的ロバスト性など、様々な視覚応用を包含している。本研究は、拡散モデルのレンズを通した敵対的攻撃の研究に特化している。しかし、我々の目的は画像分類器の敵対的頑健性を高めることではない。その代わりに、拡散モデルを利用して、これらの攻撃によって画像にもたらされる異常を検出し、分析することに重点を置く。そのために、拡散モデルを用いて変換処理を行ったときの、敵対的な例の分布の整合を系統的に調べる。このアプローチの有効性を、CIFAR-10とImageNetのデータセットで評価した。その結果、良性の画像と攻撃された画像を効果的に識別する顕著な能力が実証され、敵対的な事例がDMの学習された多様体と整列しないという説得力のある証拠が得られた。

要約(オリジナル)

In recent years, diffusion models (DMs) have drawn significant attention for their success in approximating data distributions, yielding state-of-the-art generative results. Nevertheless, the versatility of these models extends beyond their generative capabilities to encompass various vision applications, such as image inpainting, segmentation, adversarial robustness, among others. This study is dedicated to the investigation of adversarial attacks through the lens of diffusion models. However, our objective does not involve enhancing the adversarial robustness of image classifiers. Instead, our focus lies in utilizing the diffusion model to detect and analyze the anomalies introduced by these attacks on images. To that end, we systematically examine the alignment of the distributions of adversarial examples when subjected to the process of transformation using diffusion models. The efficacy of this approach is assessed across CIFAR-10 and ImageNet datasets, including varying image sizes in the latter. The results demonstrate a notable capacity to discriminate effectively between benign and attacked images, providing compelling evidence that adversarial instances do not align with the learned manifold of the DMs.

arxiv情報

著者 Peter Lorenz,Ricard Durall,Janis Keuper
発行日 2024-03-01 13:02:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CR, cs.CV パーマリンク