On the Robustness of Bayesian Neural Networks to Adversarial Attacks

要約

敵対的攻撃に対する脆弱性は、安全性が重要なアプリケーションでディープラーニングを導入する際の主な障害の 1 つです。
実践的および理論的な多大な努力にもかかわらず、敵対的攻撃に対して堅牢な深層学習モデルのトレーニングは依然として未解決の問題です。
この論文では、ベイジアン ニューラル ネットワーク (BNN) の大規模データの過剰パラメータ化制限における敵対的攻撃の形状を分析します。
限界において、勾配ベースの攻撃に対する脆弱性は、データ分布の縮退の結果、つまりデータが周囲空間の低次元の部分多様体上にある場合に生じることを示します。
直接的な結果として、この制限では BNN 事後分布が勾配ベースの敵対的攻撃に対して堅牢であることを示します。
重要なことは、事後分布からサンプリングされた各ニューラル ネットワークが勾配ベースの攻撃に対して脆弱である場合でも、BNN 事後分布に関して予想される損失の勾配が消失していることを証明することです。
ハミルトニアン モンテカルロと変分推論でトレーニングされた BNN を使用した、有限データ領域を表す MNIST、ファッション MNIST、およびハーフムーン データセットに関する実験結果は、この一連の議論を裏付けており、BNN がクリーン データでの高精度と堅牢性の両方を表示できることを示しています。
勾配ベースと勾配なしベースの両方の敵対的攻撃に対応します。

要約(オリジナル)

Vulnerability to adversarial attacks is one of the principal hurdles to the adoption of deep learning in safety-critical applications. Despite significant efforts, both practical and theoretical, training deep learning models robust to adversarial attacks is still an open problem. In this paper, we analyse the geometry of adversarial attacks in the large-data, overparameterized limit for Bayesian Neural Networks (BNNs). We show that, in the limit, vulnerability to gradient-based attacks arises as a result of degeneracy in the data distribution, i.e., when the data lies on a lower-dimensional submanifold of the ambient space. As a direct consequence, we demonstrate that in this limit BNN posteriors are robust to gradient-based adversarial attacks. Crucially, we prove that the expected gradient of the loss with respect to the BNN posterior distribution is vanishing, even when each neural network sampled from the posterior is vulnerable to gradient-based attacks. Experimental results on the MNIST, Fashion MNIST, and half moons datasets, representing the finite data regime, with BNNs trained with Hamiltonian Monte Carlo and Variational Inference, support this line of arguments, showing that BNNs can display both high accuracy on clean data and robustness to both gradient-based and gradient-free based adversarial attacks.

arxiv情報

著者 Luca Bortolussi,Ginevra Carbone,Luca Laurenti,Andrea Patane,Guido Sanguinetti,Matthew Wicker
発行日 2023-07-10 07:29:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク