要約
既知のモデルで作成された敵対的な事例が未知のモデルをも欺くことができるという移植性の向上した敵対的攻撃は、その実用性から最近注目されています。しかし、既存の移植可能な攻撃は、決定論的な方法で摂動を細工するため、しばしば損失表面を十分に探索できず、その結果、貧弱な局所最適に陥り、低い移植性に悩まされています。この問題を解決するために、我々は、確率的に顕著な多様な特徴を破壊し、移植性を向上させるAttentive-Diversity Attack (ADA)を提案します。まず、画像の注目度を変化させ、異なるモデル間で共有される普遍的な特徴を破壊する。そして、貧弱な局所最適を効果的に回避するために、これらの特徴を確率的に破壊し、伝達可能な摂動の探索空間をより網羅的に探索する。具体的には、ジェネレータを用いて、入力潜在コードに応じてそれぞれ異なる方法で特徴を乱す敵対的摂動を生成する。実験的な評価により、本手法の有効性が実証され、最新の手法の転送可能性を凌駕している。コードは https://github.com/wkim97/ADA で公開されています。
要約(オリジナル)
Adversarial attacks with improved transferability – the ability of an adversarial example crafted on a known model to also fool unknown models – have recently received much attention due to their practicality. Nevertheless, existing transferable attacks craft perturbations in a deterministic manner and often fail to fully explore the loss surface, thus falling into a poor local optimum and suffering from low transferability. To solve this problem, we propose Attentive-Diversity Attack (ADA), which disrupts diverse salient features in a stochastic manner to improve transferability. Primarily, we perturb the image attention to disrupt universal features shared by different models. Then, to effectively avoid poor local optima, we disrupt these features in a stochastic manner and explore the search space of transferable perturbations more exhaustively. More specifically, we use a generator to produce adversarial perturbations that each disturbs features in different ways depending on an input latent code. Extensive experimental evaluations demonstrate the effectiveness of our method, outperforming the transferability of state-of-the-art methods. Codes are available at https://github.com/wkim97/ADA.
arxiv情報
著者 | Woo Jae Kim,Seunghoon Hong,Sung-Eui Yoon |
発行日 | 2022-08-11 06:00:40+00:00 |
arxivサイト | arxiv_id(pdf) |