要約
防御モデルのロバスト性を評価することは、敵対ロバスト性の研究において困難な作業です。
難読化された勾配は、多くの防御方法に存在することが以前に発見されており、堅牢性の誤った信号を引き起こします。
この論文では、過大評価された敵対的ロバスト性も引き起こす可能性がある、不均衡な勾配と呼ばれるより微妙な状況を特定します。
不均衡な勾配の現象は、マージン損失の 1 つの項の勾配が支配的であり、攻撃を次善の方向に押し進めるときに発生します。
不均衡な勾配を悪用するために、マージンの損失を個々の項に分解するマージン分解 (MD) 攻撃を定式化し、2 段階のプロセスを介してこれらの項の攻撃可能性を個別に調査します。
また、MD 攻撃のマルチターゲットおよびアンサンブル バージョンも提案します。
2018 年以降に提案された 24 の防御モデルを調査することにより、11 のモデルがある程度の不均衡な勾配の影響を受けやすく、MD 攻撃は、最適なスタンドアロン ベースライン攻撃によって評価される堅牢性を 1% 以上低下させる可能性があることがわかりました。
また、不均衡な勾配の考えられる原因と効果的な対策についての詳細な調査も提供します。
コードは https://github.com/HanxunH/MDAttack で入手できます。
要約(オリジナル)
Evaluating the robustness of a defense model is a challenging task in adversarial robustness research. Obfuscated gradients have previously been found to exist in many defense methods and cause a false signal of robustness. In this paper, we identify a more subtle situation called Imbalanced Gradients that can also cause overestimated adversarial robustness. The phenomenon of imbalanced gradients occurs when the gradient of one term of the margin loss dominates and pushes the attack towards to a suboptimal direction. To exploit imbalanced gradients, we formulate a Margin Decomposition (MD) attack that decomposes a margin loss into individual terms and then explores the attackability of these terms separately via a two-stage process. We also propose a multi-targeted and ensemble version of our MD attack. By investigating 24 defense models proposed since 2018, we find that 11 models are susceptible to a certain degree of imbalanced gradients and our MD attack can decrease their robustness evaluated by the best standalone baseline attack by more than 1%. We also provide an in-depth investigation on the likely causes of imbalanced gradients and effective countermeasures. Our code is available at https://github.com/HanxunH/MDAttack.
arxiv情報
著者 | Xingjun Ma,Linxi Jiang,Hanxun Huang,Zejia Weng,James Bailey,Yu-Gang Jiang |
発行日 | 2023-03-29 13:57:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google