TAPS: Connecting Certified and Adversarial Training

要約

タイトル:TAPS:認定と敵対的トレーニングを接続する

要約:

– 認定可能な堅牢なニューラルネットワークのトレーニングは、以前から問題があった。
– 一方で、敵対的トレーニングは、最悪の場合の損失の下限を最適化するため、認定のための不十分な正則化を引き起こす。
– 一方、正当な認定トレーニング方法は、緩い上限を最適化するため、過剰な正則化と標準的な精度の低下を引き起こします。
– この論文では、IBPおよびPGDトレーニングを組み合わせた不正確な認定トレーニング方法であるTAPSを提案しています。
– TAPSは、最悪の場合の損失の近似値を正確に生成するため、過剰な正則化を減らし、認定精度と標準的な精度を向上させます。
– 実験的に、TAPSは、多くの設定で新しい最高値を達成し、$\epsilon=1/255$半径の$\ell_\infty$-摂動を持つTinyImageNetの認定精度22%に到達しています。

要約(オリジナル)

Training certifiably robust neural networks remains a notoriously hard problem. On one side, adversarial training optimizes under-approximations of the worst-case loss, which leads to insufficient regularization for certification, while on the other, sound certified training methods optimize loose over-approximations, leading to over-regularization and poor (standard) accuracy. In this work we propose TAPS, an (unsound) certified training method that combines IBP and PGD training to yield precise, although not necessarily sound, worst-case loss approximations, reducing over-regularization and increasing certified and standard accuracies. Empirically, TAPS achieves a new state-of-the-art in many settings, e.g., reaching a certified accuracy of $22\%$ on TinyImageNet for $\ell_\infty$-perturbations with radius $\epsilon=1/255$.

arxiv情報

著者 Yuhao Mao,Mark Niklas Müller,Marc Fischer,Martin Vechev
発行日 2023-05-08 09:32:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク