Adversarially Robust Deep Learning with Optimal-Transport-Regularized Divergences

要約

深層学習モデルの敵対的堅牢性を強化する新しいアプローチとして $ARMOR_D$ メソッドを紹介します。
これらの方法は、情報発散と最適転送 (OT) コストの間の非公式畳み込みを介して構築された、新しいクラスの最適転送正則化発散に基づいています。
これらをツールとして使用し、分布の近傍で予想される損失を最大化することで敵対的な堅牢性を強化します。この手法は、分布的にロバストな最適化として知られています。
敵対的なサンプルを構築するためのツールと見なされると、私たちの方法では、OT コストに従ってサンプルを転送し、情報の相違に従って再重み付けすることができます。
私たちは、マルウェア検出および画像認識アプリケーションにおけるこの方法の有効性を実証し、私たちの知る限り、敵対的攻撃に対する堅牢性の強化において既存の方法よりも優れていることがわかりました。
$ARMOR_D$ は、MNIST データセット上の $FGSM$ に対して $98.29\%$、$PGD^{40}$ に対して $98.18\%$ の堅牢化された精度をもたらし、エラー率を $19.7\%$ および $37.2\%$ 以上削減します。
それぞれ従来の方法と比較しました。
同様に、離散 (バイナリ) データ ドメインであるマルウェア検出では、$ARMOR_D$ は、これまでの最もパフォーマンスの高い敵対的トレーニング方法と比較して、$rFGSM^{50}$ 攻撃の下で堅牢化された精度を $37.0\%$ 向上させ、同時に偽陰性や偽陰性を低下させます。
偽陽性率はそれぞれ $51.1\%$ と $57.53\%$ 増加します。

要約(オリジナル)

We introduce the $ARMOR_D$ methods as novel approaches to enhancing the adversarial robustness of deep learning models. These methods are based on a new class of optimal-transport-regularized divergences, constructed via an infimal convolution between an information divergence and an optimal-transport (OT) cost. We use these as tools to enhance adversarial robustness by maximizing the expected loss over a neighborhood of distributions, a technique known as distributionally robust optimization. Viewed as a tool for constructing adversarial samples, our method allows samples to be both transported, according to the OT cost, and re-weighted, according to the information divergence. We demonstrate the effectiveness of our method on malware detection and image recognition applications and find that, to our knowledge, it outperforms existing methods at enhancing the robustness against adversarial attacks. $ARMOR_D$ yields the robustified accuracy of $98.29\%$ against $FGSM$ and $98.18\%$ against $PGD^{40}$ on the MNIST dataset, reducing the error rate by more than $19.7\%$ and $37.2\%$ respectively compared to prior methods. Similarly, in malware detection, a discrete (binary) data domain, $ARMOR_D$ improves the robustified accuracy under $rFGSM^{50}$ attack compared to the previous best-performing adversarial training methods by $37.0\%$ while lowering false negative and false positive rates by $51.1\%$ and $57.53\%$, respectively.

arxiv情報

著者 Jeremiah Birrell,Mohammadreza Ebrahimi
発行日 2023-09-07 15:41:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク