$L_p$-norm Distortion-Efficient Adversarial Attack

要約

敵対的な例は、よく訓練されたモデルを誤分類させる強力な能力を示している。現在主流の敵対的攻撃手法は、$L_0$-norm、$L_2$-norm、$L_infty$-normのうち、1つの歪みを考慮するだけである。一方、$L_0$-normと$L_2$-normと$L_infty$-normに基づく手法は、常に全ての画素に微小な摂動を拡散するため、敵対的防御に対するロバスト性が弱い。より現実的な敵対的摂動は、疎で知覚できないものであるべきである。本論文では、$L_p$ノルム歪み効率の良い新しい敵対的攻撃を提案する。これは、最小の$L_2$ノルム損失を持つだけでなく、$L_0$ノルム歪みを大幅に減少させる。この目的を達成するために、我々は新しい最適化スキームを設計する。このスキームでは、まず$L_2$ノルム制約の下で敵対的初期摂動を最適化し、次に初期摂動に対して次元非重要度行列を構築する。このような次元非重要度行列は、初期摂動の各次元の敵対的非重要度を示すことができる。さらに、次元非重要度行列に対して、敵対的閾値という新しい概念を導入する。重要度が閾値より高い初期摂動の次元は全てゼロに設定され、$L_0$ノルムの歪みを大幅に減少させる。3つのベンチマークデータセットでの実験結果から、同じクエリバジェットの下で、本手法によって生成された敵対的な例は、最先端技術よりも$L_0$ノルムと$L_2$ノルムの歪みが小さいことが示される。特にMNISTデータセットでは、我々の攻撃により$L_2$ノルムの歪みが8.1$%減少する一方で、47$%のピクセルが攻撃されずに残る。このことは、提案手法が、敵対的な頑健性と視覚的な知覚不可能性という点で、競合手法よりも優れていることを示している。

要約(オリジナル)

Adversarial examples have shown a powerful ability to make a well-trained model misclassified. Current mainstream adversarial attack methods only consider one of the distortions among $L_0$-norm, $L_2$-norm, and $L_\infty$-norm. $L_0$-norm based methods cause large modification on a single pixel, resulting in naked-eye visible detection, while $L_2$-norm and $L_\infty$-norm based methods suffer from weak robustness against adversarial defense since they always diffuse tiny perturbations to all pixels. A more realistic adversarial perturbation should be sparse and imperceptible. In this paper, we propose a novel $L_p$-norm distortion-efficient adversarial attack, which not only owns the least $L_2$-norm loss but also significantly reduces the $L_0$-norm distortion. To this aim, we design a new optimization scheme, which first optimizes an initial adversarial perturbation under $L_2$-norm constraint, and then constructs a dimension unimportance matrix for the initial perturbation. Such a dimension unimportance matrix can indicate the adversarial unimportance of each dimension of the initial perturbation. Furthermore, we introduce a new concept of adversarial threshold for the dimension unimportance matrix. The dimensions of the initial perturbation whose unimportance is higher than the threshold will be all set to zero, greatly decreasing the $L_0$-norm distortion. Experimental results on three benchmark datasets show that under the same query budget, the adversarial examples generated by our method have lower $L_0$-norm and $L_2$-norm distortion than the state-of-the-art. Especially for the MNIST dataset, our attack reduces 8.1$\%$ $L_2$-norm distortion meanwhile remaining 47$\%$ pixels unattacked. This demonstrates the superiority of the proposed method over its competitors in terms of adversarial robustness and visual imperceptibility.

arxiv情報

著者 Chao Zhou,Yuan-Gen Wang,Zi-jia Wang,Xiangui Kang
発行日 2024-07-03 14:00:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク