Cutting through buggy adversarial example defenses: fixing 1 line of code breaks Sabre


Sabreは、IEEE S&P 2024で採択された、敵対的な例に対する防御である。我々はまず、グラデーション・マスキングの明らかな兆候を示す評価の重大な欠陥を明らかにする。次に、この勾配マスキングの原因である元の評価コードのバグを示す。元のリポジトリにある1行のコードを修正することで、セイバーのロバストな精度を0%まで下げることができた。これに対して著者は防御を修正し、元の論文には記述されていない新しい防御コンポーネントを導入した。しかし、この修正には2つ目のバグが含まれており、さらに1行のコードを修正することで、ロバスト精度はベースラインレベル以下に低下する。


Sabre is a defense to adversarial examples that was accepted at IEEE S&P 2024. We first reveal significant flaws in the evaluation that point to clear signs of gradient masking. We then show the cause of this gradient masking: a bug in the original evaluation code. By fixing a single line of code in the original repository, we reduce Sabre’s robust accuracy to 0%. In response to this, the authors modify the defense and introduce a new defense component not described in the original paper. But this fix contains a second bug; modifying one more line of code reduces robust accuracy to below baseline levels.


著者 Nicholas Carlini
発行日 2024-05-06 17:48:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.CR, cs.LG パーマリンク