Feature Statistics with Uncertainty Help Adversarial Robustness

要約

深いニューラルネットワーク(DNNS)の顕著な成功にもかかわらず、敵対的な攻撃のセキュリティの脅威は、DNNの信頼性に大きな課題をもたらします。
DNNSのさまざまな部分にランダム性を導入することにより、確率的方法により、モデルが不確実性を学ぶことができ、それによりモデルの堅牢性が効率的に改善されます。
この論文では、敵対的な攻撃が機能統計の分布をシフトするという普遍的な現象を理論的に発見します。
この理論的な発見に動機付けられて、不確実性(FSU)の特徴統計と呼ばれる堅牢性強化モジュールを提案します。
チャネルごとの特徴と、多変量ガウス分布からの例の標準偏差と標準的な偏差を改善します。これは、攻撃された例を再構築し、シフトされた分布を調整するのに役立ちます。
このキャリブレーションは、分類のためにデータのドメイン特性をいくつか回復し、それにより、摂動の影響を軽減し、モデルを欺く攻撃の能力を弱めることになります。
提案されたFSUモジュールは、トレーニング、攻撃、予測、微調整に普遍的な適用性を備えており、些細な追加時間コストで印象的な堅牢性の強化能力を示しています。
たとえば、強力な最適化ベースのCW攻撃に対して、FSUを攻撃と予測フェーズに組み込むことにより、CIFAR10、CIFAR100、およびSVHNで50%〜80%の堅牢な精度で多くの崩壊した最先端モデルを授与します。

要約(オリジナル)

Despite the remarkable success of deep neural networks (DNNs), the security threat of adversarial attacks poses a significant challenge to the reliability of DNNs. By introducing randomness into different parts of DNNs, stochastic methods can enable the model to learn some uncertainty, thereby improving model robustness efficiently. In this paper, we theoretically discover a universal phenomenon that adversarial attacks will shift the distributions of feature statistics. Motivated by this theoretical finding, we propose a robustness enhancement module called Feature Statistics with Uncertainty (FSU). It resamples channel-wise feature means and standard deviations of examples from multivariate Gaussian distributions, which helps to reconstruct the attacked examples and calibrate the shifted distributions. The calibration recovers some domain characteristics of the data for classification, thereby mitigating the influence of perturbations and weakening the ability of attacks to deceive models. The proposed FSU module has universal applicability in training, attacking, predicting and fine-tuning, demonstrating impressive robustness enhancement ability at trivial additional time cost. For example, against powerful optimization-based CW attacks, by incorporating FSU into attacking and predicting phases, it endows many collapsed state-of-the-art models with 50%-80% robust accuracy on CIFAR10, CIFAR100 and SVHN.

arxiv情報

著者 Ran Wang,Xinlei Zhou,Rihao Li,Meng Hu,Wenhui Wu,Yuheng Jia
発行日 2025-03-26 14:30:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク