Provably Safeguarding a Classifier from OOD and Adversarial Samples: an Extreme Value Theory Approach

要約

この論文では、極値理論を使用したサンプル効率的な確率的検出 (SPADE) という新しい手法を紹介します。これは、分類器を棄権分類器に変換し、分布外サンプルや敵対的なサンプルに対する証明可能な保護を提供します。
このアプローチは、分類器の潜在空間におけるトレーニング分布の一般化極値 (GEV) モデルに基づいており、OOD サンプルの正式な特性評価を可能にします。
興味深いことに、穏やかな仮定の下では、GEV モデルは敵対的サンプルの正式な特徴付けも可能にします。
GEV モデルによる評価に基づいてサンプルを拒否する棄権分類器は、明らかに OOD と敵対的なサンプルを回避します。
さまざまなニューラル アーキテクチャ (ResNet、VGG、および Vision Transformer) および中規模および大規模のデータセット (CIFAR-10、CIFAR-100、および ImageNet) で実施されたアプローチの経験的検証により、比較した場合の節約性、安定性、効率性が実証されました。
最先端の技術へ。

要約(オリジナル)

This paper introduces a novel method, Sample-efficient Probabilistic Detection using Extreme Value Theory (SPADE), which transforms a classifier into an abstaining classifier, offering provable protection against out-of-distribution and adversarial samples. The approach is based on a Generalized Extreme Value (GEV) model of the training distribution in the classifier’s latent space, enabling the formal characterization of OOD samples. Interestingly, under mild assumptions, the GEV model also allows for formally characterizing adversarial samples. The abstaining classifier, which rejects samples based on their assessment by the GEV model, provably avoids OOD and adversarial samples. The empirical validation of the approach, conducted on various neural architectures (ResNet, VGG, and Vision Transformer) and medium and large-sized datasets (CIFAR-10, CIFAR-100, and ImageNet), demonstrates its frugality, stability, and efficiency compared to the state of the art.

arxiv情報

著者 Nicolas Atienza,Christophe Labreuche,Johanne Cohen,Michele Sebag
発行日 2025-01-17 13:51:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク