要約
補助勾配情報を利用して摂動を追加するか、良性の画像の既存の詳細を破棄することは、敵対的な例を生成するための2つの一般的なアプローチです。
視覚的に知覚できないことは敵対的な例の望ましい特性ですが、従来の敵対的攻撃は依然として追跡可能な敵対的摂動を生成します。
このホワイトペーパーでは、堅牢で知覚できない敵対的な例を生成するために、反転可能なニューラルネットワーク(AdvINN)メソッドを介した新しい敵対的攻撃を紹介します。
具体的には、AdvINN は、Invertible Neural Networks の情報保存特性を最大限に活用し、対象クラスのクラス固有の意味情報を追加し、元のクラスの判別情報を削除することにより、敵対的な例を生成します。
CIFAR-10、CIFAR-100、および ImageNet-1K に関する広範な実験は、提案された AdvINN メソッドが最先端のメソッドよりも知覚できない敵対的イメージを生成できず、AdvINN が他のものと比較して高い信頼度でより堅牢な敵対的サンプルを生成することを示しています。
敵対的攻撃。
要約(オリジナル)
Adding perturbations via utilizing auxiliary gradient information or discarding existing details of the benign images are two common approaches for generating adversarial examples. Though visual imperceptibility is the desired property of adversarial examples, conventional adversarial attacks still generate traceable adversarial perturbations. In this paper, we introduce a novel Adversarial Attack via Invertible Neural Networks (AdvINN) method to produce robust and imperceptible adversarial examples. Specifically, AdvINN fully takes advantage of the information preservation property of Invertible Neural Networks and thereby generates adversarial examples by simultaneously adding class-specific semantic information of the target class and dropping discriminant information of the original class. Extensive experiments on CIFAR-10, CIFAR-100, and ImageNet-1K demonstrate that the proposed AdvINN method can produce less imperceptible adversarial images than the state-of-the-art methods and AdvINN yields more robust adversarial examples with high confidence compared to other adversarial attacks.
arxiv情報
著者 | Zihan Chen,Ziyue Wang,Junjie Huang,Wentao Zhao,Xiao Liu,Dejian Guan |
発行日 | 2023-01-17 06:45:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google