Saliency Attack: Towards Imperceptible Black-box Adversarial Attack

要約

ディープニューラルネットワークは、攻撃者がモデル出力にのみアクセスできるブラックボックス設定であっても、敵対的な例に対して脆弱です。
最近の研究では、クエリ効率の高い効果的なブラックボックス攻撃が考案されています。
ただし、このようなパフォーマンスには、攻撃の知覚不能性の妥協が伴うことが多く、これらのアプローチの実際の使用が妨げられます。
本論文では、摂動を小さな顕著な領域に限定して、ほとんど知覚できない敵対的な例を生成することを提案します。
このアプローチは、多くの既存のブラックボックス攻撃と容易に互換性があり、攻撃の成功率をほとんど低下させることなく、それらの知覚不能性を大幅に改善できます。
さらに、顕著な領域の摂動を改善してさらに優れた知覚不能性を達成することを目的とした新しいブラックボックス攻撃であるSaliencyAttackを提案します。
広範な実験により、最先端のブラックボックス攻撃と比較して、私たちのアプローチは、最も見かけの歪み(MAD)、$L_0$および$L_2$の距離を含む、はるかに優れた知覚不能スコアを達成し、大幅に高い成功を収めることが示されています
MADの人間のようなしきい値によって判断されるレート。
重要なことに、私たちのアプローチによって生成された摂動は、ある程度解釈可能です。
最後に、さまざまな検出ベースの防御に対して堅牢であることも示されています。

要約(オリジナル)

Deep neural networks are vulnerable to adversarial examples, even in the black-box setting where the attacker is only accessible to the model output. Recent studies have devised effective black-box attacks with high query efficiency. However, such performance is often accompanied by compromises in attack imperceptibility, hindering the practical use of these approaches. In this paper, we propose to restrict the perturbations to a small salient region to generate adversarial examples that can hardly be perceived. This approach is readily compatible with many existing black-box attacks and can significantly improve their imperceptibility with little degradation in attack success rate. Further, we propose the Saliency Attack, a new black-box attack aiming to refine the perturbations in the salient region to achieve even better imperceptibility. Extensive experiments show that compared to the state-of-the-art black-box attacks, our approach achieves much better imperceptibility scores, including most apparent distortion (MAD), $L_0$ and $L_2$ distances, and also obtains significantly higher success rates judged by a human-like threshold on MAD. Importantly, the perturbations generated by our approach are interpretable to some extent. Finally, it is also demonstrated to be robust to different detection-based defenses.

arxiv情報

著者 Zeyu Dai,Shengcai Liu,Ke Tang,Qing Li
発行日 2022-06-04 03:56:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク