Revisiting Transferable Adversarial Image Examples: Attack Categorization, Evaluation Guidelines, and New Insights

要約

転送可能な敵対的な例は、現実世界のブラックボックス攻撃シナリオにおいて重大なセキュリティ上の懸念を引き起こします。
ただし、この研究では、一般的な評価手法における 2 つの主な問題を特定します。(1) 攻撃の伝達性に関して、系統的な 1 対 1 の攻撃比較と公平なハイパーパラメータ設定の欠如。
(2) 攻撃のステルス性については、単純に比較対象になりません。
これらの課題に対処するため、(1) 新たな攻撃分類戦略の提案と伝達性に関する体系的かつ公平なカテゴリ内分析を実施すること、(2) 多様な非感知性指標とよりきめ細かいステルス性特性を観点から考慮することにより、新たな評価ガイドラインを確立します。
攻撃のトレースバック。
この目的を達成するために、9 つの代表的な防御に対する 23 の代表的な攻撃を含む、転送可能な敵対的な例の最初の大規模な評価を ImageNet 上で提供します。
私たちの評価は、コンセンサスに挑戦するものを含む、多くの新しい洞察につながります。 (1) 公平な攻撃ハイパーパラメータ設定の下では、1 つの初期攻撃手法である DI が、実際にすべてのフォローアップ手法よりも優れたパフォーマンスを発揮します。
(2) 最先端の防御である DiffPure は、実際に (ブラック ボックスの) 転送可能な攻撃によって大部分が回避されるため、(ホワイト ボックスの) セキュリティが誤った感覚を与えます。
(3) すべての攻撃が同じ $L_p$ ノルムによって制限されている場合でも、それらは劇的に異なるステルス性能をもたらし、これは転送性能と負の相関関係を持ちます。
全体として、私たちの研究は、既存の問題のある評価が実際に誤解を招く結論や論点の欠落を引き起こし、その結果、この分野の実際の進歩の評価を妨げていることを示しています。

要約(オリジナル)

Transferable adversarial examples raise critical security concerns in real-world, black-box attack scenarios. However, in this work, we identify two main problems in common evaluation practices: (1) For attack transferability, lack of systematic, one-to-one attack comparison and fair hyperparameter settings. (2) For attack stealthiness, simply no comparisons. To address these problems, we establish new evaluation guidelines by (1) proposing a novel attack categorization strategy and conducting systematic and fair intra-category analyses on transferability, and (2) considering diverse imperceptibility metrics and finer-grained stealthiness characteristics from the perspective of attack traceback. To this end, we provide the first large-scale evaluation of transferable adversarial examples on ImageNet, involving 23 representative attacks against 9 representative defenses. Our evaluation leads to a number of new insights, including consensus-challenging ones: (1) Under a fair attack hyperparameter setting, one early attack method, DI, actually outperforms all the follow-up methods. (2) A state-of-the-art defense, DiffPure, actually gives a false sense of (white-box) security since it is indeed largely bypassed by our (black-box) transferable attacks. (3) Even when all attacks are bounded by the same $L_p$ norm, they lead to dramatically different stealthiness performance, which negatively correlates with their transferability performance. Overall, our work demonstrates that existing problematic evaluations have indeed caused misleading conclusions and missing points, and as a result, hindered the assessment of the actual progress in this field.

arxiv情報

著者 Zhengyu Zhao,Hanwei Zhang,Renjue Li,Ronan Sicre,Laurent Amsaleg,Michael Backes,Qi Li,Chao Shen
発行日 2023-10-18 10:06:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク