Deceptive Diffusion: Generating Synthetic Adversarial Examples

要約

私たちは、欺瞞的拡散の概念を導入します。つまり、生成 AI モデルをトレーニングして敵対的な画像を生成します。
従来の敵対的攻撃アルゴリズムは、既存の画像を混乱させて誤分類を誘発することを目的としていますが、欺瞞的拡散モデルは、トレーニング画像やテスト画像に直接関連付けられていない、任意の数の新しい誤分類画像を作成する可能性があります。
欺瞞的拡散は、他の方法では見つけるのが難しいタイプの誤分類を含む、敵対的なトレーニング データを大規模に提供することにより、防御アルゴリズムを強化する可能性を提供します。
私たちの実験では、部分的に攻撃されたデータセットに対するトレーニングの影響も調査しました。
これは、生成拡散モデルの新しいタイプの脆弱性を浮き彫りにします。攻撃者がトレーニング データの一部を密かに汚染できる場合、結果として得られる拡散モデルは、同様の割合で誤解を招く出力を生成します。

要約(オリジナル)

We introduce the concept of deceptive diffusion — training a generative AI model to produce adversarial images. Whereas a traditional adversarial attack algorithm aims to perturb an existing image to induce a misclassificaton, the deceptive diffusion model can create an arbitrary number of new, misclassified images that are not directly associated with training or test images. Deceptive diffusion offers the possibility of strengthening defence algorithms by providing adversarial training data at scale, including types of misclassification that are otherwise difficult to find. In our experiments, we also investigate the effect of training on a partially attacked data set. This highlights a new type of vulnerability for generative diffusion models: if an attacker is able to stealthily poison a portion of the training data, then the resulting diffusion model will generate a similar proportion of misleading outputs.

arxiv情報

著者 Lucas Beerens,Catherine F. Higham,Desmond J. Higham
発行日 2024-06-28 10:30:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.AI, cs.LG, I.2.0 パーマリンク