Unsupervised Evaluation of Out-of-distribution Detection: A Data-centric Perspective


分布外 (OOD) 検出方法では、テストのグラウンド トゥルース、つまり、個々のテスト サンプルが分布内 (IND) であるか OOD であるかを前提としています。
ただし、現実の世界では、常にそのようなグラウンド トゥルースがあるとは限らないため、どのサンプルが正しく検出されているかがわからず、AUROC のようなメトリックを計算してさまざまな OOD 検出方法のパフォーマンスを評価することはできません。
この論文では、OOD ラベルのない現実世界の変化する環境で OOD 検出方法を評価することを目的とした、OOD 検出における教師なし評価問題を初めて紹介しました。
OOD 検出性能の教師なし指標として Gscore を計算する 3 つの方法を提案します。
さらに、新しいベンチマーク Gbench を紹介します。これには、さまざまなラベル スペースの 200 の実世界の OOD データセットがあり、メソッドをトレーニングして評価します。
実験を通じて、Gscore と OOD 検出性能の間に強い定量的相関関係があることがわかりました。
広範な実験により、当社の Gscore が最先端のパフォーマンスを達成することが実証されています。
また、Gscore は、さまざまな IND/OOD データセット、OOD 検出方法、バックボーン、およびデータセット サイズをうまく一般化します。
さらに、バックボーンと IND/OOD データセットが OOD 検出パフォーマンスに及ぼす影響に関する興味深い分析を提供します。


Out-of-distribution (OOD) detection methods assume that they have test ground truths, i.e., whether individual test samples are in-distribution (IND) or OOD. However, in the real world, we do not always have such ground truths, and thus do not know which sample is correctly detected and cannot compute the metric like AUROC to evaluate the performance of different OOD detection methods. In this paper, we are the first to introduce the unsupervised evaluation problem in OOD detection, which aims to evaluate OOD detection methods in real-world changing environments without OOD labels. We propose three methods to compute Gscore as an unsupervised indicator of OOD detection performance. We further introduce a new benchmark Gbench, which has 200 real-world OOD datasets of various label spaces to train and evaluate our method. Through experiments, we find a strong quantitative correlation betwwen Gscore and the OOD detection performance. Extensive experiments demonstrate that our Gscore achieves state-of-the-art performance. Gscore also generalizes well with different IND/OOD datasets, OOD detection methods, backbones and dataset sizes. We further provide interesting analyses of the effects of backbones and IND/OOD datasets on OOD detection performance. The data and code will be available.


著者 Yuhang Zhang,Weihong Deng,Liang Zheng
発行日 2023-02-16 13:34:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク