要約
分布外(OOD)検出は、推論中にOODサンプルを検出し、展開されたモデルの安全性を確保するタスクである。しかし、従来のベンチマークは性能の飽和に達しており、最近のOOD検出手法の比較を困難にしている。この課題を解決するために、手法の特性をより深く理解でき、実世界の状況を反映した3つの新しいOOD検出ベンチマークを紹介する。まず、ImageNet-Xを紹介し、困難なセマンティックシフト下での性能を評価するように設計されている。次に、共変量シフト(特徴分布のシフト)に対する頑健性を評価する、フルスペクトルOOD検出用のImageNet-FS-Xを提案する。最後に、これらの評価を実世界のデータセットに拡張し、より包括的なテストベッドを提供するWilds-FS-Xを提案する。我々の実験により、最近のCLIPに基づくOOD検出手法は、提案した3つのベンチマークにおいて程度の差こそあれ苦戦を強いられていることが明らかになった。我々は、コミュニティが特定のベンチマークを超え、実世界のシナリオを反映したより困難な条件を含むことを望む。コードはhttps://github.com/hoshi23/OOD-X-Benchmarks。
要約(オリジナル)
Out-of-distribution (OOD) detection is a task that detects OOD samples during inference to ensure the safety of deployed models. However, conventional benchmarks have reached performance saturation, making it difficult to compare recent OOD detection methods. To address this challenge, we introduce three novel OOD detection benchmarks that enable a deeper understanding of method characteristics and reflect real-world conditions. First, we present ImageNet-X, designed to evaluate performance under challenging semantic shifts. Second, we propose ImageNet-FS-X for full-spectrum OOD detection, assessing robustness to covariate shifts (feature distribution shifts). Finally, we propose Wilds-FS-X, which extends these evaluations to real-world datasets, offering a more comprehensive testbed. Our experiments reveal that recent CLIP-based OOD detection methods struggle to varying degrees across the three proposed benchmarks, and none of them consistently outperforms the others. We hope the community goes beyond specific benchmarks and includes more challenging conditions reflecting real-world scenarios. The code is https://github.com/hoshi23/OOD-X-Benchmarks.
arxiv情報
著者 | Shiho Noda,Atsuyuki Miyai,Qing Yu,Go Irie,Kiyoharu Aizawa |
発行日 | 2025-02-03 15:51:16+00:00 |
arxivサイト | arxiv_id(pdf) |