Raising the Bar for Certified Adversarial Robustness with Diffusion Models

要約

敵対的攻撃に対する認定された防御は、モデルの堅牢性に関する正式な保証を提供するため、後から目に見えない攻撃によって有効性が低下することが多い敵対的トレーニングなどの経験的手法よりも信頼性が高くなります。
それでも、現在達成可能な認定された堅牢性が限られていることが、実用化のボトルネックとなっています。
ゴワルら。
および王ら。
は、最先端の拡散モデルを使用して追加のトレーニング データを生成すると、敵対的トレーニングの堅牢性を大幅に向上できることを示しました。
この研究では、同様のアプローチにより決定論的な認定防御を大幅に改善できることを実証します。
さらに、認定トレーニング アプローチの堅牢性を拡張するための推奨事項のリストも提供します。
私たちの主な洞察の 1 つは、汎化ギャップ、つまり元のモデルのトレーニングとテストの精度の差が、追加で生成されたデータを使用した場合のロバスト性の向上の大きさを予測する優れた指標であるということです。
私たちのアプローチは、$\ell_2$ ($\epsilon = 36/255$) および $\ell_\infty$ ($\epsilon = 8/255$) の CIFAR-10 で最先端の決定論的堅牢性証明書を達成します。
脅威モデルは、以前の最良の結果をそれぞれ $+3.95\%$ および $+1.39\%$ 上回りました。
さらに、CIFAR-100 についても同様の改善があったことを報告します。

要約(オリジナル)

Certified defenses against adversarial attacks offer formal guarantees on the robustness of a model, making them more reliable than empirical methods such as adversarial training, whose effectiveness is often later reduced by unseen attacks. Still, the limited certified robustness that is currently achievable has been a bottleneck for their practical adoption. Gowal et al. and Wang et al. have shown that generating additional training data using state-of-the-art diffusion models can considerably improve the robustness of adversarial training. In this work, we demonstrate that a similar approach can substantially improve deterministic certified defenses. In addition, we provide a list of recommendations to scale the robustness of certified training approaches. One of our main insights is that the generalization gap, i.e., the difference between the training and test accuracy of the original model, is a good predictor of the magnitude of the robustness improvement when using additional generated data. Our approach achieves state-of-the-art deterministic robustness certificates on CIFAR-10 for the $\ell_2$ ($\epsilon = 36/255$) and $\ell_\infty$ ($\epsilon = 8/255$) threat models, outperforming the previous best results by $+3.95\%$ and $+1.39\%$, respectively. Furthermore, we report similar improvements for CIFAR-100.

arxiv情報

著者 Thomas Altstidl,David Dobre,Björn Eskofier,Gauthier Gidel,Leo Schwinn
発行日 2023-05-17 17:29:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク