Transcending Adversarial Perturbations: Manifold-Aided Adversarial Examples with Legitimate Semantics

要約

ディープニューラルネットワークは、悪意のある微小な摂動によって操作された敵対的な例に対して著しく脆弱であった。従来のほとんどの敵対的攻撃は、敵対的な例と対応する生画像の幾何学的距離を最小化することで、視覚的な知覚不可能性を確保していたが、幾何学的距離に対するこのような制約は、限定的な攻撃伝達性、劣った視覚的品質、人間には知覚不可能な解釈可能性につながっていた。本論文では、実際の正当な意味を持つ敵対的な例を生成するために、教師付き意味変換生成モデルを提案する。このモデルでは、非敵対的な例から敵対的な例への正当な遷移を実現するために、連続的な意味変化を含む無制限の敵対的多様体が初めて構築された。MNISTデータセットと産業欠陥データセットを用いた包括的な実験により、我々の敵対的事例がより優れた視覚的品質を示すだけでなく、優れた攻撃移行性とモデルの脆弱性に対するより効果的な説明を達成することが示され、汎用的な敵対的事例としての大きな可能性が示された。コードと事前学習済みモデルは、https://github.com/shuaili1027/MAELS.git。

要約(オリジナル)

Deep neural networks were significantly vulnerable to adversarial examples manipulated by malicious tiny perturbations. Although most conventional adversarial attacks ensured the visual imperceptibility between adversarial examples and corresponding raw images by minimizing their geometric distance, these constraints on geometric distance led to limited attack transferability, inferior visual quality, and human-imperceptible interpretability. In this paper, we proposed a supervised semantic-transformation generative model to generate adversarial examples with real and legitimate semantics, wherein an unrestricted adversarial manifold containing continuous semantic variations was constructed for the first time to realize a legitimate transition from non-adversarial examples to adversarial ones. Comprehensive experiments on MNIST and industrial defect datasets showed that our adversarial examples not only exhibited better visual quality but also achieved superior attack transferability and more effective explanations for model vulnerabilities, indicating their great potential as generic adversarial examples. The code and pre-trained models were available at https://github.com/shuaili1027/MAELS.git.

arxiv情報

著者 Shuai Li,Xiaoyu Jiang,Xiaoguang Ma
発行日 2024-02-05 15:25:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク