Is RobustBench/AutoAttack a suitable Benchmark for Adversarial Robustness?

要約

最近、RobustBench (Croce et al. 2020) が、画像分類ネットワークの敵対的堅牢性のベンチマークとして広く認識されるようになりました。
最も一般的に報告されているサブタスクでは、RobustBench は、l-inf 摂動を eps = 8/255 に制限した Auto Attack (Croce and Hein 2020b) の下で、CIFAR10 上の学習済みニューラル ネットワークの敵対的堅牢性を評価し、ランク付けします。
現在最高のパフォーマンスを誇るモデルの主要なスコアはベースラインの約 60% であるため、このベンチマークは非常に困難であると特徴付けるのが妥当です。
最近の文献では一般に受け入れられていますが、実際のアプリケーションに一般化できる堅牢性の重要な指標としての RobustBench の適合性についての議論を促進することを目指しています。
これに対する私たちの議論は 2 つあり、この論文で提示した過剰な実験によって裏付けられています。私たちは、I) l-inf, eps = 8/255 を使用した Auto Attack によるデータの変更は非現実的で強力であり、結果として完璧に近いと主張します。
単純な検出アルゴリズムと人間の観察者による場合でも、敵対的なサンプルの検出率を向上させます。
また、他の攻撃方法は、同様の成功率を達成しながらも、検出するのがはるかに難しいことも示します。
II) CIFAR10 のような低解像度のデータセットでの結果は、解像度が増加すると勾配ベースの攻撃がさらに検出可能になるため、高解像度の画像にはうまく一般化できません。

要約(オリジナル)

Recently, RobustBench (Croce et al. 2020) has become a widely recognized benchmark for the adversarial robustness of image classification networks. In its most commonly reported sub-task, RobustBench evaluates and ranks the adversarial robustness of trained neural networks on CIFAR10 under AutoAttack (Croce and Hein 2020b) with l-inf perturbations limited to eps = 8/255. With leading scores of the currently best performing models of around 60% of the baseline, it is fair to characterize this benchmark to be quite challenging. Despite its general acceptance in recent literature, we aim to foster discussion about the suitability of RobustBench as a key indicator for robustness which could be generalized to practical applications. Our line of argumentation against this is two-fold and supported by excessive experiments presented in this paper: We argue that I) the alternation of data by AutoAttack with l-inf, eps = 8/255 is unrealistically strong, resulting in close to perfect detection rates of adversarial samples even by simple detection algorithms and human observers. We also show that other attack methods are much harder to detect while achieving similar success rates. II) That results on low-resolution data sets like CIFAR10 do not generalize well to higher resolution images as gradient-based attacks appear to become even more detectable with increasing resolutions.

arxiv情報

著者 Peter Lorenz,Dominik Strassel,Margret Keuper,Janis Keuper
発行日 2024-02-20 13:43:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV パーマリンク