Incorporating Locality of Images to Generate Targeted Transferable Adversarial Examples

要約

敵対的事例の伝達性を利用することで、非標的攻撃ではかなり高い攻撃成功率を達成できるにもかかわらず、標的攻撃では、DNNによって元画像から標的クラスへの勾配方向が異なるため、うまく機能しないことが多い。標的型攻撃の移植性を高めるために、最近の研究では、生成された敵対例の特徴を、補助ネットワークや生成敵対ネットワークから学習した標的クラスの特徴分布と一致させる努力がなされている。しかし、これらの研究は、学習データセットが利用可能であることを前提としており、ネットワークの学習に多くの時間を要するため、実環境への適用が困難である。本論文では、普遍性の観点から移植性を狙った敵対的事例を再検討し、普遍性の高い敵対的摂動は移植性が高い傾向にあることを見出した。この観察に基づき、我々は標的型移譲性を向上させるためにLocality of Images (LI) 攻撃を提案する。具体的には、分類損失のみを用いるのではなく、敵対的摂動を加えた元画像とランダムに切り出した画像の中間特徴間の特徴類似度損失を導入し、敵対的摂動からの特徴を良性画像からの特徴よりも優位にすることで、標的の移植性を向上させるものである。LI攻撃は、画像の局所性を摂動の最適化に取り入れることで、標的の摂動が多様な入力パターン(局所的な画像パッチも含む)に対して普遍的であることを強調する。LIは、転送型標的型攻撃において高い成功率を達成できることを、広範な実験により実証している。また、ImageNet互換データセットへの攻撃において、LIは既存の最先端手法と比較して12%の改善を達成した。

要約(オリジナル)

Despite that leveraging the transferability of adversarial examples can attain a fairly high attack success rate for non-targeted attacks, it does not work well in targeted attacks since the gradient directions from a source image to a targeted class are usually different in different DNNs. To increase the transferability of target attacks, recent studies make efforts in aligning the feature of the generated adversarial example with the feature distributions of the targeted class learned from an auxiliary network or a generative adversarial network. However, these works assume that the training dataset is available and require a lot of time to train networks, which makes it hard to apply to real-world scenarios. In this paper, we revisit adversarial examples with targeted transferability from the perspective of universality and find that highly universal adversarial perturbations tend to be more transferable. Based on this observation, we propose the Locality of Images (LI) attack to improve targeted transferability. Specifically, instead of using the classification loss only, LI introduces a feature similarity loss between intermediate features from adversarial perturbed original images and randomly cropped images, which makes the features from adversarial perturbations to be more dominant than that of benign images, hence improving targeted transferability. Through incorporating locality of images into optimizing perturbations, the LI attack emphasizes that targeted perturbations should be universal to diverse input patterns, even local image patches. Extensive experiments demonstrate that LI can achieve high success rates for transfer-based targeted attacks. On attacking the ImageNet-compatible dataset, LI yields an improvement of 12\% compared with existing state-of-the-art methods.

arxiv情報

著者 Zhipeng Wei,Jingjing Chen,Zuxuan Wu,Yu-Gang Jiang
発行日 2022-09-08 11:21:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク