Cutting through buggy adversarial example defenses: fixing 1 line of code breaks Sabre

要約

Sabre は、IEEE S&P 2024 で承認された敵対的な例に対する防御です。まず、グラデーション マスキングの明らかな兆候を示す評価における重大な欠陥を明らかにします。
次に、このグラデーション マスキングの原因、つまり元の評価コードのバグを示します。
元のリポジトリ内の 1 行のコードを修正することで、Sabre の堅牢な精度が 0% に低下します。
これに応じて、著者らは防御を修正し、元の論文には記載されていない新しい防御コンポーネントを導入します。
しかし、この修正には 2 番目のバグが含まれています。
コードをもう 1 行変更すると、堅牢な精度がベースライン レベルを下回ります。
私たちが論文の最初のバージョンをオンラインで公開した後、著者らは弁護側に別の変更を導入しました。
攻撃中にコードの 1 行をコメントアウトすることで、堅牢な精度が再び 0% に低下します。

要約(オリジナル)

Sabre is a defense to adversarial examples that was accepted at IEEE S&P 2024. We first reveal significant flaws in the evaluation that point to clear signs of gradient masking. We then show the cause of this gradient masking: a bug in the original evaluation code. By fixing a single line of code in the original repository, we reduce Sabre’s robust accuracy to 0%. In response to this, the authors modify the defense and introduce a new defense component not described in the original paper. But this fix contains a second bug; modifying one more line of code reduces robust accuracy to below baseline levels. After we released the first version of our paper online, the authors introduced another change to the defense; by commenting out one line of code during attack we reduce the robust accuracy to 0% again.

arxiv情報

著者 Nicholas Carlini
発行日 2024-07-01 15:57:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク