Disentangling CLIP for Multi-Object Perception

要約

Clip Excelのようなビジョン言語モデルは、シーン内の単一の顕著なオブジェクトを認識します。
しかし、彼らは複数のオブジェクトを含む複雑なシーンで苦労しています。
この制限の背後にある基本的な理由を特定します。VLMS機能スペースは、重要なセマンティックエンタングルメントを示します。あるクラスの特徴には、相互の特徴情報(MFI)と呼ばれる他の無関係なクラスに関する実質的な情報が含まれています。
無関係なオブジェクトがクエリクラスとともにアクティブ化されるため、このエンタングルメントはクラス固有のクエリ中に明らかになります。
この制限に対処するために、2つの補完的な目的を使用してクリップ機能を解き放つフレームワークであるDCLIPを提案します。テキスト(クラス)の特徴を直交する新しいMFI損失は、クラス間の類似性を低下させます。
私たちの実験は、DCLIPがクリップと比較してクラス間の特徴の類似性を30 \%減少させ、マルチラベル認識(MLR)およびゼロショットセマンティックセグメンテーション(ZS3)の大幅なパフォーマンスを引き起こすことを示しています。
MLRでは、DCLIPは75%少ないパラメーターを使用しながら、VOC2007およびCOCO-14でSOTAアプローチを上回り、COCO-17でVOC2012および2.8 MIOUで3.4 MIOUでSOTA ZS3メソッドを上回ります。
これらの結果は、視覚言語モデルにおける効果的なマルチオブジェクト認識の重要な要因として、特徴の解き角を確立します。

要約(オリジナル)

Vision-language models like CLIP excel at recognizing the single, prominent object in a scene. However, they struggle in complex scenes containing multiple objects. We identify a fundamental reason behind this limitation: VLMs features space exhibits significant semantic entanglement, where features of one class contain substantial information about other unrelated classes, a phenomenon we term mutual feature information (MFI). This entanglement becomes evident during class-specific queries, as unrelated objects are activated alongside the queried class. To address this limitation, we propose DCLIP, a framework that disentangles CLIP features using two complementary objectives: a novel MFI Loss that orthogonalizes the text (class) features to reduce inter-class similarity, and the Asymmetric Loss (ASL) that aligns image features with the disentangled text features. Our experiment demonstrates that DCLIP reduces inter-class feature similarity by 30\% compared to CLIP, leading to significant performance gains on multi-label recognition (MLR) and zero-shot semantic segmentation (ZS3). In MLR, DCLIP outperforms SOTA approaches on VOC2007 and COCO-14 while using 75\% fewer parameters, and surpasses SOTA ZS3 methods by 3.4 mIoU on VOC2012 and 2.8 mIoU on COCO-17. These results establish feature disentanglement as a critical factor for effective multi-object perception in vision-language models.

arxiv情報

著者 Samyak Rawlekar,Yujun Cai,Yiwei Wang,Ming-Hsuan Yang,Narendra Ahuja
発行日 2025-05-16 17:06:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク