Open-Set Recognition in the Age of Vision-Language Models

要約

オープン語彙認識のためのビジョン言語モデル (VLM) は、インターネット規模のデータセットでトレーニングされているため、本質的にオープンセット モデルなのでしょうか?
この質問には明確に「いいえ」と答えます。VLM は有限のクエリ セットを介して閉集合の仮定を導入するため、開集合の条件に対して脆弱になります。
私たちは、VLM のオープンセット認識を系統的に評価したところ、クエリ セットに含まれていないオブジェクトを頻繁に誤分類し、高再現率に調整した場合やその逆の場合に驚くほど低い精度につながることがわかりました。
より多くのクラスを含めるためにクエリ セットのサイズを単純に増加しても、この問題は軽減されず、代わりにタスクのパフォーマンスとオープンセットのパフォーマンスが低下することを示します。
我々は、VLM 時代に向けた開集合問題の定義の改訂を確立し、この重要な分野における標準化された評価と研究を促進するための新しいベンチマークと評価プロトコルを定義し、予測の不確実性と専用のネガティブ埋め込みに基づいて有望なベースライン アプローチを評価します。
オープンボキャブラリーの VLM 分類器とオブジェクト検出器の範囲。

要約(オリジナル)

Are vision-language models (VLMs) for open-vocabulary perception inherently open-set models because they are trained on internet-scale datasets? We answer this question with a clear no – VLMs introduce closed-set assumptions via their finite query set, making them vulnerable to open-set conditions. We systematically evaluate VLMs for open-set recognition and find they frequently misclassify objects not contained in their query set, leading to alarmingly low precision when tuned for high recall and vice versa. We show that naively increasing the size of the query set to contain more and more classes does not mitigate this problem, but instead causes diminishing task performance and open-set performance. We establish a revised definition of the open-set problem for the age of VLMs, define a new benchmark and evaluation protocol to facilitate standardised evaluation and research in this important area, and evaluate promising baseline approaches based on predictive uncertainty and dedicated negative embeddings on a range of open-vocabulary VLM classifiers and object detectors.

arxiv情報

著者 Dimity Miller,Niko Sünderhauf,Alex Kenna,Keita Mason
発行日 2024-07-19 14:16:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク