要約
堅牢なトレーニング方法は、通常、固定予算のあるLP攻撃など、特定の攻撃タイプから防御し、防御者が時間の経過とともに新しい攻撃に遭遇する可能性があるという事実をめったに説明しません。
自然な解決策は、防御されたモデルを新しい敵が微調整を介して発生するため、継続的な堅牢なトレーニング(CRT)と呼ぶ方法に適応することです。
ただし、素朴に実装された場合、新しい攻撃で微調整すると、以前の攻撃で堅牢性が低下します。
これは疑問を提起します:モデルの最初のトレーニングと微調整をどのように改善して、以前の攻撃と新しい攻撃に対して堅牢性を達成することができますか?
モデルの異なる攻撃に対する堅牢性のギャップが、各攻撃がモデルのロジット空間でサンプルを摂動する程度であることに境界を挙げていることを示す理論的結果を提示し、このロジット空間距離に関する正規化が以前の攻撃に対する堅牢性を維持するのに役立つことを示唆しています。
3つのデータセット(CIFAR-10、CIFAR-100、およびImagenette)での広範な実験と100を超える攻撃の組み合わせにより、提案された正則化がトレーニング時間のオーバーヘッドがほとんどなく、堅牢な精度が向上することが示されています。
私たちの調査結果とオープンソースコードは、進化する攻撃に対して堅牢なモデルの展開の基礎を築きます。
要約(オリジナル)
Robust training methods typically defend against specific attack types, such as Lp attacks with fixed budgets, and rarely account for the fact that defenders may encounter new attacks over time. A natural solution is to adapt the defended model to new adversaries as they arise via fine-tuning, a method which we call continual robust training (CRT). However, when implemented naively, fine-tuning on new attacks degrades robustness on previous attacks. This raises the question: how can we improve the initial training and fine-tuning of the model to simultaneously achieve robustness against previous and new attacks? We present theoretical results which show that the gap in a model’s robustness against different attacks is bounded by how far each attack perturbs a sample in the model’s logit space, suggesting that regularizing with respect to this logit space distance can help maintain robustness against previous attacks. Extensive experiments on 3 datasets (CIFAR-10, CIFAR-100, and ImageNette) and over 100 attack combinations demonstrate that the proposed regularization improves robust accuracy with little overhead in training time. Our findings and open-source code lay the groundwork for the deployment of models robust to evolving attacks.
arxiv情報
著者 | Sihui Dai,Christian Cianfarani,Arjun Bhagoji,Vikash Sehwag,Prateek Mittal |
発行日 | 2025-02-06 17:38:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google