Generating Adversarial Attacks in the Latent Space

要約

タイトル:潜在空間での敵対的攻撃の生成

要約:

– 敵対的攻撃は、$ L_1 $や$ L_ \infty $-normのようなノイズマージンを用いて、深層学習ネットワークを無効にする微小なノイズを加えたデータを生成することが一般的です。
– しかし、このようなノイズマージンは、許容されるノイズの大きさを制限してしまいます。
– この研究では、敵対的摂動を生成するために、生成的敵対的ネットワークを使用して潜在(特徴)空間に注入することを提案しています。
– この方法により、マージンベースの事前知識が不要となります。
– MNIST、CIFAR10、Fashion-MNIST、CIFAR100、Stanford Dogsデータセットでの実験により、ピクセルベースの敵対的攻撃方法と比較して、潜在空間での敵対的攻撃の生成の有効性が示されました。
– また、視覚的リアルさの高い攻撃が生成されたことも確認されました。

要約(オリジナル)

Adversarial attacks in the input (pixel) space typically incorporate noise margins such as $L_1$ or $L_{\infty}$-norm to produce imperceptibly perturbed data that confound deep learning networks. Such noise margins confine the magnitude of permissible noise. In this work, we propose injecting adversarial perturbations in the latent (feature) space using a generative adversarial network, removing the need for margin-based priors. Experiments on MNIST, CIFAR10, Fashion-MNIST, CIFAR100 and Stanford Dogs datasets support the effectiveness of the proposed method in generating adversarial attacks in the latent space while ensuring a high degree of visual realism with respect to pixel-based adversarial attack methods.

arxiv情報

著者 Nitish Shukla,Sudipta Banerjee
発行日 2023-04-10 05:11:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク