要約
敵対的トレーニング (AT) は、敵対的攻撃に対する深層学習分類器の堅牢性を大幅に向上させることがわかっています。
AT では、分類器のトレーニングに敵対的な例を含めることによって堅牢性を獲得します。
AT アルゴリズムのほとんどのバリアントは、すべてのトレーニング サンプルを同等に扱います。
しかし、最近の研究では、それらを不平等に扱うことでより良いパフォーマンスが達成できることが示されています。
さらに、AT はトレーニング セット内のさまざまなクラスに不均一な影響を及ぼし、本質的に分類が難しいクラスに対応するサンプルを不当に傷つけることが観察されています。
その結果、トレーニングセット内の個々のサンプルのロバストな損失に不均等な重みを割り当てるさまざまな再重み付けスキームが提案されています。
この研究では、新しいインスタンスごとの再重み付けスキームを提案します。
それぞれの自然な例の脆弱性と、敵対的攻撃によって引き起こされる敵対的な対応物での情報損失が考慮されます。
広範な実験を通じて、私たちが提案した方法が、特に強力なホワイトボックス攻撃やブラックボックス攻撃に対して、既存の再重み付けスキームよりも大幅に改善されることを示します。
要約(オリジナル)
Adversarial Training (AT) has been found to substantially improve the robustness of deep learning classifiers against adversarial attacks. AT involves obtaining robustness by including adversarial examples in training a classifier. Most variants of AT algorithms treat every training example equally. However, recent works have shown that better performance is achievable by treating them unequally. In addition, it has been observed that AT exerts an uneven influence on different classes in a training set and unfairly hurts examples corresponding to classes that are inherently harder to classify. Consequently, various reweighting schemes have been proposed that assign unequal weights to robust losses of individual examples in a training set. In this work, we propose a novel instance-wise reweighting scheme. It considers the vulnerability of each natural example and the resulting information loss on its adversarial counterpart occasioned by adversarial attacks. Through extensive experiments, we show that our proposed method significantly improves over existing reweighting schemes, especially against strong white and black-box attacks.
arxiv情報
著者 | Olukorede Fakorede,Ashutosh Kumar Nirala,Modeste Atsague,Jin Tian |
発行日 | 2023-07-14 05:31:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google