Provably Robust Detection of Out-of-distribution Data (almost) for free

要約

安全性が重要なシステムに機械学習を適用するには、不確実性の信頼できる評価が必要です。
ただし、ディープ ニューラル ネットワークは、分布外 (OOD) データに対して非常に自信過剰な予測を生成することが知られています。
OOD データに自信が持てないように訓練されたとしても、OOD データを敵対的に操作して、分類子が操作されたサンプルに高い信頼度を再度割り当てることができます。
以前に公開された 2 つの防御策は、より適切に適応した攻撃によって破ることができることを示し、OOD データに関する堅牢性の保証の重要性を強調しています。
このタスクの既存の方法はトレーニングが難しく、精度が大幅に制限されるため、証明可能な敵対的に堅牢な OOD 検出と高いクリーン精度を同時に達成できる分類器を構築します。
さらに、分類器のアーキテクチャをわずかに変更することで、標準的なニューラル ネットワークの漸近的過信の問題を確実に回避できます。
すべての実験のコードを提供します。

要約(オリジナル)

The application of machine learning in safety-critical systems requires a reliable assessment of uncertainty. However, deep neural networks are known to produce highly overconfident predictions on out-of-distribution (OOD) data. Even if trained to be non-confident on OOD data, one can still adversarially manipulate OOD data so that the classifier again assigns high confidence to the manipulated samples. We show that two previously published defenses can be broken by better adapted attacks, highlighting the importance of robustness guarantees around OOD data. Since the existing method for this task is hard to train and significantly limits accuracy, we construct a classifier that can simultaneously achieve provably adversarially robust OOD detection and high clean accuracy. Moreover, by slightly modifying the classifier’s architecture our method provably avoids the asymptotic overconfidence problem of standard neural networks. We provide code for all our experiments.

arxiv情報

著者 Alexander Meinke,Julian Bitterwolf,Matthias Hein
発行日 2022-10-18 11:40:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク