Improving the Transferability of Adversarial Examples via Direction Tuning

要約

転送ベースの敵対的攻撃では、敵対的サンプルはサロゲート モデルによってのみ生成され、被害者モデルで効果的な摂動を実現します。
転送ベースの敵対的攻撃によって生成された敵対的例の転送可能性を改善するために多大な努力がなされてきましたが、私たちの調査では、現在の転送ベースの敵対的攻撃の実際の更新方向と最も急な更新方向の間の大きな乖離は、大規模な更新によって引き起こされていることが判明しました。
ステップ長が大きくなると、生成された敵対的な例がうまく収束できなくなります。
ただし、更新ステップ長を直接短縮すると、深刻な更新の振動が発生するため、生成された敵対的サンプルも被害者モデルへの優れた転送可能性を達成できなくなります。
これらの問題に対処するために、新しい転送ベースの攻撃、つまり方向調整攻撃が提案されています。これは、大きなステップ長での更新偏差を減らすだけでなく、小さなサンプリングステップ長での更新振動を緩和し、それによって生成された攻撃を敵対的にすることができます。
例はうまく収束し、犠牲モデルで優れた転送可能性を実現します。
さらに、決定境界を平滑化するためのネットワーク枝刈り手法が提案されており、これにより更新の振動がさらに減少し、生成された敵対的例の転送可能性が向上します。
ImageNet 上の実験結果は、私たちの方法によって生成された敵対的例の平均攻撃成功率 (ASR) が、防御のない 5 つの被害者モデルで 87.9\% から 94.5\% に、また 69.1\% から 76.2\% に改善できることを示しています。
8 つの高度な防御方法について、最新の勾配ベースの攻撃と比較して説明します。

要約(オリジナル)

In the transfer-based adversarial attacks, adversarial examples are only generated by the surrogate models and achieve effective perturbation in the victim models. Although considerable efforts have been developed on improving the transferability of adversarial examples generated by transfer-based adversarial attacks, our investigation found that, the big deviation between the actual and steepest update directions of the current transfer-based adversarial attacks is caused by the large update step length, resulting in the generated adversarial examples can not converge well. However, directly reducing the update step length will lead to serious update oscillation so that the generated adversarial examples also can not achieve great transferability to the victim models. To address these issues, a novel transfer-based attack, namely direction tuning attack, is proposed to not only decrease the update deviation in the large step length, but also mitigate the update oscillation in the small sampling step length, thereby making the generated adversarial examples converge well to achieve great transferability on victim models. In addition, a network pruning method is proposed to smooth the decision boundary, thereby further decreasing the update oscillation and enhancing the transferability of the generated adversarial examples. The experiment results on ImageNet demonstrate that the average attack success rate (ASR) of the adversarial examples generated by our method can be improved from 87.9\% to 94.5\% on five victim models without defenses, and from 69.1\% to 76.2\% on eight advanced defense methods, in comparison with that of latest gradient-based attacks.

arxiv情報

著者 Xiangyuan Yang,Jie Lin,Hanlin Zhang,Xinyu Yang,Peng Zhao
発行日 2023-08-11 12:27:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク