Adversarial Training on Purification (AToP): Advancing Both Robustness and Generalization

要約

ディープ ニューラル ネットワークは、巧妙に設計された敵対的攻撃に対して脆弱であることが知られています。
敵対的トレーニング (AT) に基づいた最も成功した防御手法は、特定の攻撃に対して最適な堅牢性を実現できますが、目に見えない攻撃に対しては十分に一般化できません。
敵対的浄化 (AP) に基づく別の効果的な防御手法は、一般化を強化できますが、最適な堅牢性を達成することはできません。
一方、両方の方法には、標準精度の低下に関する 1 つの共通の制限があります。
これらの問題を軽減するために、我々は敵対的浄化トレーニング(AToP)と呼ばれる新しいフレームワークを提案します。このフレームワークは、ランダム変換による摂動破壊(RT)と敵対的損失によって微調整された浄化器モデル(FT)の 2 つのコンポーネントで構成されます。
RT は既知の攻撃に対する過剰学習を避けるために不可欠であり、その結果、未知の攻撃に対する堅牢性の一般化が生じ、FT は堅牢性の向上に不可欠です。
私たちの手法を効率的かつスケーラブルな方法で評価するために、CIFAR-10、CIFAR-100、ImageNette で広範な実験を実施し、私たちの手法が最先端の結果を達成し、目に見えない攻撃に対して一般化能力を発揮することを実証しました。

要約(オリジナル)

The deep neural networks are known to be vulnerable to well-designed adversarial attacks. The most successful defense technique based on adversarial training (AT) can achieve optimal robustness against particular attacks but cannot generalize well to unseen attacks. Another effective defense technique based on adversarial purification (AP) can enhance generalization but cannot achieve optimal robustness. Meanwhile, both methods share one common limitation on the degraded standard accuracy. To mitigate these issues, we propose a novel framework called Adversarial Training on Purification (AToP), which comprises two components: perturbation destruction by random transforms (RT) and purifier model fine-tuned (FT) by adversarial loss. RT is essential to avoid overlearning to known attacks resulting in the robustness generalization to unseen attacks and FT is essential for the improvement of robustness. To evaluate our method in an efficient and scalable way, we conduct extensive experiments on CIFAR-10, CIFAR-100, and ImageNette to demonstrate that our method achieves state-of-the-art results and exhibits generalization ability against unseen attacks.

arxiv情報

著者 Guang Lin,Chao Li,Jianhai Zhang,Toshihisa Tanaka,Qibin Zhao
発行日 2024-01-29 17:56:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク