要約
分散除外(OOD)検出は、展開されたモデルの安全性を確保するために、推論中にOODサンプルを検出するタスクです。
ただし、従来のベンチマークはパフォーマンスの飽和に達しているため、最近のOOD検出方法を比較することは困難です。
この課題に対処するために、メソッド特性をより深く理解し、実際の条件を反映する3つの新しいOOD検出ベンチマークを導入します。
まず、挑戦的なセマンティックシフトの下でパフォーマンスを評価するように設計されたImagenet-Xを提示します。
第二に、フルスペクトルOOD検出のためのImagENet-FS-Xを提案し、共変量シフト(特徴分布シフト)への堅牢性を評価します。
最後に、これらの評価を実際のデータセットに拡張するWilds-FS-Xを提案し、より包括的なテストベッドを提供します。
私たちの実験では、最近のクリップベースのOOD検出方法は、3つの提案されたベンチマークでさまざまな程度に苦労しており、それらのどれも他のベンチマークよりも一貫して優れていないことが明らかになりました。
コミュニティが特定のベンチマークを超えており、実際のシナリオを反映したより挑戦的な条件が含まれることを願っています。
コードはhttps://github.com/hoshi23/ood-x-banchmarksです。
要約(オリジナル)
Out-of-distribution (OOD) detection is a task that detects OOD samples during inference to ensure the safety of deployed models. However, conventional benchmarks have reached performance saturation, making it difficult to compare recent OOD detection methods. To address this challenge, we introduce three novel OOD detection benchmarks that enable a deeper understanding of method characteristics and reflect real-world conditions. First, we present ImageNet-X, designed to evaluate performance under challenging semantic shifts. Second, we propose ImageNet-FS-X for full-spectrum OOD detection, assessing robustness to covariate shifts (feature distribution shifts). Finally, we propose Wilds-FS-X, which extends these evaluations to real-world datasets, offering a more comprehensive testbed. Our experiments reveal that recent CLIP-based OOD detection methods struggle to varying degrees across the three proposed benchmarks, and none of them consistently outperforms the others. We hope the community goes beyond specific benchmarks and includes more challenging conditions reflecting real-world scenarios. The code is https://github.com/hoshi23/OOD-X-Banchmarks.
arxiv情報
著者 | Shiho Noda,Atsuyuki Miyai,Qing Yu,Go Irie,Kiyoharu Aizawa |
発行日 | 2025-01-30 16:30:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google