The Enemy of My Enemy is My Friend: Exploring Inverse Adversaries for Improving Adversarial Training

要約

現在の深層学習技術は、さまざまなコンピューター ビジョン タスクで優れたパフォーマンスを発揮していますが、依然として敵対的な例に対して脆弱です。
敵対的なトレーニングとその変種は、敵対的な例から防御するための最も効果的なアプローチであることが示されています。
これらの方法は通常、敵対者とそれに対応する自然例の出力確率の差を正則化します。
ただし、モデルが自然な例を誤分類すると、悪影響が生じる可能性があります。
この問題を回避するために、モデルが敵対的な例とその「逆の敵対的」対応物に対して同様の出力を生成することを奨励する、新しい敵対的トレーニングスキームを提案します。
これらのサンプルは、自然な例の近傍で可能性を最大化するために生成されます。
さまざまなビジョン データセットとアーキテクチャに関する広範な実験により、トレーニング方法が最先端の堅牢性と自然な精度を達成することが実証されています。
さらに、逆敵対的サンプルのユニバーサル バージョンを使用して、低計算コストで単一ステップの敵対的トレーニング手法のパフォーマンスを向上させます。

要約(オリジナル)

Although current deep learning techniques have yielded superior performance on various computer vision tasks, yet they are still vulnerable to adversarial examples. Adversarial training and its variants have been shown to be the most effective approaches to defend against adversarial examples. These methods usually regularize the difference between output probabilities for an adversarial and its corresponding natural example. However, it may have a negative impact if the model misclassifies a natural example. To circumvent this issue, we propose a novel adversarial training scheme that encourages the model to produce similar outputs for an adversarial example and its “inverse adversarial” counterpart. These samples are generated to maximize the likelihood in the neighborhood of natural examples. Extensive experiments on various vision datasets and architectures demonstrate that our training method achieves state-of-the-art robustness as well as natural accuracy. Furthermore, using a universal version of inverse adversarial examples, we improve the performance of single-step adversarial training techniques at a low computational cost.

arxiv情報

著者 Junhao Dong,Seyed-Mohsen Moosavi-Dezfooli,Jianhuang Lai,Xiaohua Xie
発行日 2022-11-01 15:24:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク