Is CLIP the main roadblock for fine-grained open-world perception?

要約

現代のアプリケーションでは、トレーニング中に遭遇しなかった新しい概念に適応する柔軟なコンピュータビジョンモデルがますます求められている。この必要性は、オープンワールドの刺激に対応する能力を必要とする拡張現実、ロボット工学、自律走行などの新しい領域において極めて重要である。重要な要素は、推論時に定義された自由形式のテキストクエリに基づいてオブジェクトを識別する能力であり、これはオープンボキャブラリーオブジェクト検出として知られるタスクである。CLIPのようなマルチモーダルバックボーンは、現在のオープンワールド知覚ソリューションの主な実現技術である。一般的なクエリでは良好な性能を発揮するものの、最近の研究では、オープンボキャブラリ設定におけるきめ細かな認識能力、すなわち色、形状、材質などの微妙なオブジェクトの特徴を区別する能力の限界が浮き彫りになっている。本論文では、このようなオープンボキャブラリーによる物体認識の限界について詳細な検証を行い、根本的な原因を探る。最も一般的に使用されている視覚言語バックボーンであるCLIPの性能を、きめ細かなオブジェクトマッチングベンチマークに対して評価し、オープンボキャブラリーオブジェクト検出器とそのバックボーンの限界の間の興味深い類似点を明らかにする。実験から、CLIP潜在空間における物体特性の分離性の低さが、きめ細かな理解の欠如の原因であることが示唆された。そこで我々は、例えばコサイン類似度マッチング関数が不適当であるために、重要な物体特性を捨ててしまう可能性があるため、CLIP埋め込みにきめ細かな知識が存在するが、推論時に利用されないかどうかを理解しようと試みる。我々の予備実験では、単純なCLIPの潜在空間再投影が、細かい概念を分離するのに役立つことを示しており、細かい詳細を本質的に処理できるバックボーンの開発への道を開いている。これらの実験を再現するコードはhttps://github.com/lorebianchi98/FG-CLIP。

要約(オリジナル)

Modern applications increasingly demand flexible computer vision models that adapt to novel concepts not encountered during training. This necessity is pivotal in emerging domains like extended reality, robotics, and autonomous driving, which require the ability to respond to open-world stimuli. A key ingredient is the ability to identify objects based on free-form textual queries defined at inference time – a task known as open-vocabulary object detection. Multimodal backbones like CLIP are the main enabling technology for current open-world perception solutions. Despite performing well on generic queries, recent studies highlighted limitations on the fine-grained recognition capabilities in open-vocabulary settings – i.e., for distinguishing subtle object features like color, shape, and material. In this paper, we perform a detailed examination of these open-vocabulary object recognition limitations to find the root cause. We evaluate the performance of CLIP, the most commonly used vision-language backbone, against a fine-grained object-matching benchmark, revealing interesting analogies between the limitations of open-vocabulary object detectors and their backbones. Experiments suggest that the lack of fine-grained understanding is caused by the poor separability of object characteristics in the CLIP latent space. Therefore, we try to understand whether fine-grained knowledge is present in CLIP embeddings but not exploited at inference time due, for example, to the unsuitability of the cosine similarity matching function, which may discard important object characteristics. Our preliminary experiments show that simple CLIP latent-space re-projections help separate fine-grained concepts, paving the way towards the development of backbones inherently able to process fine-grained details. The code for reproducing these experiments is available at https://github.com/lorebianchi98/FG-CLIP.

arxiv情報

著者 Lorenzo Bianchi,Fabio Carrara,Nicola Messina,Fabrizio Falchi
発行日 2024-04-04 15:47:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク