要約
機械学習の利用が拡大し続ける中、その安全性を確保することの重要性はいくら強調してもしすぎることはありません。
この点で重要な問題は、特定のサンプルがトレーニング分布からのものか、それとも「分布外」(OOD) サンプルかを識別する機能です。
さらに、攻撃者は、分類器が自信を持って予測できるように、OOD サンプルを操作することができます。
この研究では、ネットワーク アーキテクチャに関係なく、特定のコンポーネントや追加のトレーニングを必要とせずに、入力周辺の $\ell_2$ ノルム内で OOD 検出の堅牢性を証明するための新しいアプローチを提示します。
さらに、OOD サンプルに対する敵対的攻撃を検出するための現在の手法を改善すると同時に、配布中のサンプルに対して高レベルの認証済みおよび敵対的堅牢性を提供します。
CIFAR10/100 でのすべての OOD 検出メトリックの平均は、以前のアプローチと比較して $\sim 13 \% / 5\%$ の増加を示しています。
要約(オリジナル)
As the use of machine learning continues to expand, the importance of ensuring its safety cannot be overstated. A key concern in this regard is the ability to identify whether a given sample is from the training distribution, or is an ‘Out-Of-Distribution’ (OOD) sample. In addition, adversaries can manipulate OOD samples in ways that lead a classifier to make a confident prediction. In this study, we present a novel approach for certifying the robustness of OOD detection within a $\ell_2$-norm around the input, regardless of network architecture and without the need for specific components or additional training. Further, we improve current techniques for detecting adversarial attacks on OOD samples, while providing high levels of certified and adversarial robustness on in-distribution samples. The average of all OOD detection metrics on CIFAR10/100 shows an increase of $\sim 13 \% / 5\%$ relative to previous approaches.
arxiv情報
著者 | Nicola Franco,Daniel Korth,Jeanette Miriam Lorenz,Karsten Roscher,Stephan Guennemann |
発行日 | 2023-03-29 12:31:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google