Detecting AutoAttack Perturbations in the Frequency Domain

要約

最近、Auto Attack (Croce and Hein、2020b) フレームワークによる画像分類ネットワークに対する敵対的攻撃が大きな注目を集めています。
Auto Attack は非常に高い攻撃成功率を示していますが、ほとんどの防御アプローチは、敵対的トレーニングなどのネットワークの強化と堅牢性の強化に焦点を当てています。
このように、現在最もよく報告されている方法は、CIFAR10 の敵対的な例の約 66% に耐えることができます。
この論文では、Auto Attack の空間領域および周波数領域の特性を調査し、代替防御策を提案します。
ネットワークを強化する代わりに、推論中に敵対的な攻撃を検出し、操作された入力を拒否します。
周波数領域でのかなり単純かつ高速な分析に基づいて、2 つの異なる検出アルゴリズムを導入します。
まず、ブラック ボックス検出器は、入力画像に対してのみ動作し、どちらの場合もイプシロン = 8/255 の場合、Auto Attack CIFAR10 ベンチマークでは 100%、ImageNet では 99.3% の検出精度を達成します。
2 つ目は、CNN 特徴マップの分析を使用したホワイトボックス検出器で、同じベンチマークで 100% と 98.7% の検出率を実現しました。

要約(オリジナル)

Recently, adversarial attacks on image classification networks by the AutoAttack (Croce and Hein, 2020b) framework have drawn a lot of attention. While AutoAttack has shown a very high attack success rate, most defense approaches are focusing on network hardening and robustness enhancements, like adversarial training. This way, the currently best-reported method can withstand about 66% of adversarial examples on CIFAR10. In this paper, we investigate the spatial and frequency domain properties of AutoAttack and propose an alternative defense. Instead of hardening a network, we detect adversarial attacks during inference, rejecting manipulated inputs. Based on a rather simple and fast analysis in the frequency domain, we introduce two different detection algorithms. First, a black box detector that only operates on the input images and achieves a detection accuracy of 100% on the AutoAttack CIFAR10 benchmark and 99.3% on ImageNet, for epsilon = 8/255 in both cases. Second, a whitebox detector using an analysis of CNN feature maps, leading to a detection rate of also 100% and 98.7% on the same benchmarks.

arxiv情報

著者 Peter Lorenz,Paula Harder,Dominik Strassel,Margret Keuper,Janis Keuper
発行日 2024-02-20 13:42:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV パーマリンク