On Using Certified Training towards Empirical Robustness

要約

敵対的な訓練は、おそらく特定の敵対例に対して経験的堅牢性を提供する最も一般的な方法です。
マルチステップ攻撃に基づくバリエーションは重要な計算オーバーヘッドが発生しますが、シングルステップのバリエーションは壊滅的な過剰適合として知られる故障モードに対して脆弱であり、大きな摂動の実用的な有用性を妨げます。
並行した作業ラインである認定トレーニングは、可能な攻撃に対する堅牢性の正式な保証に適したネットワークの生産に焦点を当てています。
ただし、最高のパフォーマンスを発揮する経験的および認定された防御の間の広いギャップにより、後者の適用性が厳しく制限されています。
敵対的な攻撃とネットワークの過剰近接の組み合わせに依存している認定トレーニングの最近の開発、および局所的な線形性と壊滅的なオーバーフィッティングの関係に依存していることに触発され、実用的な実用性と、経験的堅牢性に向けて認定トレーニングを使用することの制限に関する実験的証拠を提示します。
目的のために調整された場合、最近の認定トレーニングアルゴリズムは、シングルステップ攻撃に対する壊滅的な過剰適合を防ぎ、適切な実験設定の下でマルチステップベースラインへのギャップを埋めることができることを示します。
最後に、ランタイムを著しく削減しながら同様の効果を達成できるネットワークの過剰近接のための概念的にシンプルな正規者を提示します。

要約(オリジナル)

Adversarial training is arguably the most popular way to provide empirical robustness against specific adversarial examples. While variants based on multi-step attacks incur significant computational overhead, single-step variants are vulnerable to a failure mode known as catastrophic overfitting, which hinders their practical utility for large perturbations. A parallel line of work, certified training, has focused on producing networks amenable to formal guarantees of robustness against any possible attack. However, the wide gap between the best-performing empirical and certified defenses has severely limited the applicability of the latter. Inspired by recent developments in certified training, which rely on a combination of adversarial attacks with network over-approximations, and by the connections between local linearity and catastrophic overfitting, we present experimental evidence on the practical utility and limitations of using certified training towards empirical robustness. We show that, when tuned for the purpose, a recent certified training algorithm can prevent catastrophic overfitting on single-step attacks, and that it can bridge the gap to multi-step baselines under appropriate experimental settings. Finally, we present a conceptually simple regularizer for network over-approximations that can achieve similar effects while markedly reducing runtime.

arxiv情報

著者 Alessandro De Palma,Serge Durand,Zakaria Chihani,François Terrier,Caterina Urban
発行日 2025-03-24 15:14:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, stat.ML パーマリンク