Beyond AUROC & co. for evaluating out-of-distribution detection performance

要約

配布外 (OOD) 検出手法の開発に対する研究の関心が高まっている一方で、これらの手法をどのように評価すべきかについての議論は比較的ほとんどありません。
安全な AI との関連性を考慮すると、OOD 検出方法を比較するための基礎が実際のニーズと一致しているかどうかを検討することが重要です。
この研究では、OOD 検出を評価するための頼りになるメトリクスを詳しく調べ、検出しきい値をほとんど考慮せずに OOD 検出を専らバイナリ分類タスクに落とし込むアプローチに疑問を投げかけます。
我々は、現在のメトリクス (AUROC とその仲間) の限界を説明し、ID サンプルと OOD サンプル間の分離が不十分な場合に明示的にペナルティを与える新しいメトリクスであるしきい値曲線下面積 (AUTC) を提案します。
スクリプトとデータは https://github.com/glhr/beyond-auroc から入手できます。

要約(オリジナル)

While there has been a growing research interest in developing out-of-distribution (OOD) detection methods, there has been comparably little discussion around how these methods should be evaluated. Given their relevance for safe(r) AI, it is important to examine whether the basis for comparing OOD detection methods is consistent with practical needs. In this work, we take a closer look at the go-to metrics for evaluating OOD detection, and question the approach of exclusively reducing OOD detection to a binary classification task with little consideration for the detection threshold. We illustrate the limitations of current metrics (AUROC & its friends) and propose a new metric – Area Under the Threshold Curve (AUTC), which explicitly penalizes poor separation between ID and OOD samples. Scripts and data are available at https://github.com/glhr/beyond-auroc

arxiv情報

著者 Galadrielle Humblot-Renaux,Sergio Escalera,Thomas B. Moeslund
発行日 2023-06-26 12:51:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク