要約
深いニューラルネットワークに対する敵対的な攻撃の設計、およびそれらに対する敵対的な訓練の方法は、激しい研究の対象です。
この論文では、流通攻撃の脅威に反して訓練する方法を提案し、ポイントワイズ攻撃に使用される取引方法を延長します。
私たちのアプローチは、最近の貢献を活用しており、ワッサースタインの分布的に堅牢な最適化の問題の感度分析に依存しています。
以前に訓練されたモデルに展開できる効率的な微調整方法を紹介します。
RobustBenchで、さまざまな訓練を受けたモデルの範囲でメソッドをテストします。
これらの実験結果は、すでに非常に成功しているネットワークであっても、ポイントワイズの堅牢性の元のレベルを維持しながら、追加のトレーニングがワッサースタイン分布の堅牢性を高めることを示しています。
20〜100mの画像の巨大な合成データセットを使用して、事前に訓練されたモデルでは、改善はあまりマークされていません。
ただし、驚くべきことに、元のトレーニングデータセット(50K画像)のみを使用してトレーニングを受けた場合でも、方法がパフォーマンスを改善できる場合があります。
要約(オリジナル)
Design of adversarial attacks for deep neural networks, as well as methods of adversarial training against them, are subject of intense research. In this paper, we propose methods to train against distributional attack threats, extending the TRADES method used for pointwise attacks. Our approach leverages recent contributions and relies on sensitivity analysis for Wasserstein distributionally robust optimization problems. We introduce an efficient fine-tuning method which can be deployed on a previously trained model. We test our methods on a range of pre-trained models on RobustBench. These experimental results demonstrate the additional training enhances Wasserstein distributional robustness, while maintaining original levels of pointwise robustness, even for already very successful networks. The improvements are less marked for models pre-trained using huge synthetic datasets of 20-100M images. However, remarkably, sometimes our methods are still able to improve their performance even when trained using only the original training dataset (50k images).
arxiv情報
著者 | Xingjian Bai,Guangyi He,Yifan Jiang,Jan Obloj |
発行日 | 2025-02-13 14:18:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google