Adversarial Robustness Certification for Bayesian Neural Networks

要約

私たちは、敵対的な入力摂動に対するベイジアン ニューラル ネットワーク (BNN) の堅牢性を証明する問題を研究します。
入力点のコンパクトなセット $T \subseteq \mathbb{R}^m$ と出力点のセット $S \subseteq \mathbb{R}^n$ が与えられた場合、敵対的設定における BNN の堅牢性の 2 つの概念を定義します。
: 確率的な堅牢性と決定の堅牢性。
確率的ロバスト性は、$T$ のすべての点について、事後からサンプリングされた BNN の出力が $S$ にある確率です。
一方、決定ロバスト性は、BNN の最適な決定を考慮し、$T$ 内のすべての点について、特定の損失関数に対する BNN の最適な決定が出力セット $S$ 内にあるかどうかをチェックします。
BNN の確率的かつ非凸的な性質により、これらのロバスト性特性を正確に計算することは困難ですが、BNN を効率的かつ形式的に境界付けるための統一された計算フレームワークを提示します。
私たちのアプローチは、重み間隔のサンプリング、統合、および制限された伝播技術に基づいており、BNN のトレーニングに使用される (近似) 推論方法とは関係なく、多数のパラメーターを持つ BNN に適用できます。
私たちは、産業回帰ベンチマーク、MNIST、交通標識認識、航空機衝突回避などのさまざまな回帰および分類タスクに対する手法の有効性を評価し、私たちのアプローチが BNN 予測の堅牢性と不確実性の証明を可能にすることを実証します。

要約(オリジナル)

We study the problem of certifying the robustness of Bayesian neural networks (BNNs) to adversarial input perturbations. Given a compact set of input points $T \subseteq \mathbb{R}^m$ and a set of output points $S \subseteq \mathbb{R}^n$, we define two notions of robustness for BNNs in an adversarial setting: probabilistic robustness and decision robustness. Probabilistic robustness is the probability that for all points in $T$ the output of a BNN sampled from the posterior is in $S$. On the other hand, decision robustness considers the optimal decision of a BNN and checks if for all points in $T$ the optimal decision of the BNN for a given loss function lies within the output set $S$. Although exact computation of these robustness properties is challenging due to the probabilistic and non-convex nature of BNNs, we present a unified computational framework for efficiently and formally bounding them. Our approach is based on weight interval sampling, integration, and bound propagation techniques, and can be applied to BNNs with a large number of parameters, and independently of the (approximate) inference method employed to train the BNN. We evaluate the effectiveness of our methods on various regression and classification tasks, including an industrial regression benchmark, MNIST, traffic sign recognition, and airborne collision avoidance, and demonstrate that our approach enables certification of robustness and uncertainty of BNN predictions.

arxiv情報

著者 Matthew Wicker,Andrea Patane,Luca Laurenti,Marta Kwiatkowska
発行日 2023-06-23 16:58:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク