要約
認証可能なロバストニューラルネットワークの学習は、重要だが困難な課題である。決定論的)認証トレーニングのための多くのアルゴリズムが提案されているが、それらはしばしば異なるトレーニングスケジュール、認証方法、系統的にチューニングされたハイパーパラメータで評価されるため、性能を比較することが困難である。この課題を解決するために、我々は、公正な設定と系統的に調整されたハイパーパラメータの下で全てのアルゴリズムを評価する、統一されたライブラリと高品質な認定訓練用ベンチマークであるCTBenchを紹介する。我々は、(1)CTBenchのほぼ全てのアルゴリズムが、アルゴリズム改良の大きさにおいて、文献で報告されている対応する性能を凌駕し、新たな最先端を確立すること、(2)公平な訓練スケジュール、公平な認証方法、および十分に調整されたハイパーパラメータを用いて、古いベースラインを強化した場合、最近のアルゴリズムの主張される優位性が大幅に低下することを示す。CTBenchに基づき、我々は、(1)認証されたモデルは、より断片化された損失曲面を持っている、(2)認証されたモデルは、多くの間違いを共有している、(3)認証されたモデルは、より疎な活性化を持っている、(4)正則化を巧みに減らすことは、特に大きな半径の認証されたトレーニングにとって重要である、(5)認証されたトレーニングは、分布外汎化を改善する可能性がある、など、認証されたトレーニングの現状に関する新しい洞察を提供する。我々は、CTBenchが今後の認証トレーニング研究のベンチマークおよびテストベッドとして機能することを確信している。
要約(オリジナル)
Training certifiably robust neural networks is an important but challenging task. While many algorithms for (deterministic) certified training have been proposed, they are often evaluated on different training schedules, certification methods, and systematically under-tuned hyperparameters, making it difficult to compare their performance. To address this challenge, we introduce CTBench, a unified library and a high-quality benchmark for certified training that evaluates all algorithms under fair settings and systematically tuned hyperparameters. We show that (1) almost all algorithms in CTBench surpass the corresponding reported performance in literature in the magnitude of algorithmic improvements, thus establishing new state-of-the-art, and (2) the claimed advantage of recent algorithms drops significantly when we enhance the outdated baselines with a fair training schedule, a fair certification method and well-tuned hyperparameters. Based on CTBench, we provide new insights into the current state of certified training, including (1) certified models have less fragmented loss surface, (2) certified models share many mistakes, (3) certified models have more sparse activations, (4) reducing regularization cleverly is crucial for certified training especially for large radii and (5) certified training has the potential to improve out-of-distribution generalization. We are confident that CTBench will serve as a benchmark and testbed for future research in certified training.
arxiv情報
| 著者 | Yuhao Mao,Stefan Balauca,Martin Vechev | 
| 発行日 | 2025-02-03 14:49:02+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
