要約
タイトル:Zero-Shot In-Distribution Detection in Multi-Object Settings Using Vision-Language Foundation Models
要約:
– OOD(out-of-distribution)画像をノイズの多いインターネット上から削除することは、データセットを作成するための重要な前処理であり、ビジョン言語基盤モデル(CLIP)を使用したゼロショットOOD検出で対処できる。
– 現在のゼロショットOOD検出設定は、画像にIDオブジェクトとOODオブジェクトの両方が含まれる現実的な場合を考慮していないが、稀少なクラスや倫理的に不適切なクラスの画像を収集する際に、ID画像として識別することは重要である。
– 本研究では、IDオブジェクトを含む画像をID画像として識別し、OODオブジェクトを含む画像をOOD画像として識別する、新しい問題設定であるID検出を提案する。
– この問題を解決するために、CLIP機能のグローバルとローカルのビジュアルテキストアラインメントに基づく新しいアプローチ、Global-Local Maximum Concept Matching(GL-MCM)を提供する。
– 広範な実験により、GL-MCMがマルチオブジェクトデータセットとシングルオブジェクトImageNetベンチマークの両方で比較方法を上回ることが示された。
要約(オリジナル)
Removing out-of-distribution (OOD) images from noisy images scraped from the Internet is an important preprocessing for constructing datasets, which can be addressed by zero-shot OOD detection with vision language foundation models (CLIP). The existing zero-shot OOD detection setting does not consider the realistic case where an image has both in-distribution (ID) objects and OOD objects. However, it is important to identify such images as ID images when collecting the images of rare classes or ethically inappropriate classes that must not be missed. In this paper, we propose a novel problem setting called in-distribution (ID) detection, where we identify images containing ID objects as ID images, even if they contain OOD objects, and images lacking ID objects as OOD images. To solve this problem, we present a new approach, \textbf{G}lobal-\textbf{L}ocal \textbf{M}aximum \textbf{C}oncept \textbf{M}atching (GL-MCM), based on both global and local visual-text alignments of CLIP features, which can identify any image containing ID objects as ID images. Extensive experiments demonstrate that GL-MCM outperforms comparison methods on both multi-object datasets and single-object ImageNet benchmarks.
arxiv情報
著者 | Atsuyuki Miyai,Qing Yu,Go Irie,Kiyoharu Aizawa |
発行日 | 2023-04-10 11:35:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI