Increasing Confidence in Adversarial Robustness Evaluations

要約

最小限の(敵対的な)入力摂動に対してディープニューラルネットワークを堅牢にするために、何百もの防御が提案されています。
ただし、堅牢性を正しく評価することは非常に困難であるため、これらの防御のほんの一握りが主張を支持しました。弱い攻撃は、無意識のうちに存在していても敵対的な例を見つけられないことが多く、脆弱なネットワークが堅牢に見えるようになります。
この論文では、弱い攻撃、したがって弱い防御評価を識別するためのテストを提案します。
私たちのテストは、ニューラルネットワークをわずかに変更して、すべてのサンプルに敵対的な例が存在することを保証します。
結果として、正しい攻撃は、この変更されたネットワークを破壊することに成功する必要があります。
以前に公開された13の防御のうち11については、防御の元の評価はテストに失敗しますが、これらの防御を破るより強力な攻撃は合格します。
私たちのような攻撃ユニットテストが、将来の堅牢性評価の主要なコンポーネントとなり、現在懐疑論に満ちている経験的分野への信頼を高めることを願っています。

要約(オリジナル)

Hundreds of defenses have been proposed to make deep neural networks robust against minimal (adversarial) input perturbations. However, only a handful of these defenses held up their claims because correctly evaluating robustness is extremely challenging: Weak attacks often fail to find adversarial examples even if they unknowingly exist, thereby making a vulnerable network look robust. In this paper, we propose a test to identify weak attacks, and thus weak defense evaluations. Our test slightly modifies a neural network to guarantee the existence of an adversarial example for every sample. Consequentially, any correct attack must succeed in breaking this modified network. For eleven out of thirteen previously-published defenses, the original evaluation of the defense fails our test, while stronger attacks that break these defenses pass it. We hope that attack unit tests – such as ours – will be a major component in future robustness evaluations and increase confidence in an empirical field that is currently riddled with skepticism.

arxiv情報

著者 Roland S. Zimmermann,Wieland Brendel,Florian Tramer,Nicholas Carlini
発行日 2022-06-28 13:28:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク