要約
コントラスト言語画像事前学習(CLIP)は、画像とテキストのマッチングにおいて優れたゼロショット性能を実証してきた。しかし、CLIPのような視覚言語事前学習モデルを、構文画像・テキストマッチングに適応させることはまだ困難である。この論文では、ゼロショット画像・テキストマッチングにおけるより良い構文汎化に向けて、因果的な観点からこの問題を研究する:個々のエンティティの誤った意味論は、本質的にマッチング失敗の原因となる交絡因子である。そのため、我々は新規な組成CLIPモデル(ComCLIP)を提案する。ComCLIPは入力画像を被写体、物体、行動の部分画像に分離し、CLIPの視覚エンコーダとテキストエンコーダを合成して、合成テキスト埋め込みと部分画像埋め込みに対して発展的マッチングを行う。このようにして、ComCLIPは事前に学習されたCLIPモデルによってもたらされるスプリアス相関を緩和し、各コンポーネントの重要性を動的に評価することができる。4つの構成画像-テキストマッチングデータセットを用いた実験:SVO、ComVG、Winoground、VL-checklistの4つの画像-テキスト照合データセットと、2つの一般的な画像-テキスト検索データセットである:Flick30K、MSCOCOは、CLIP、SLIP、BLIP2の推論能力を、さらなる訓練や微調整なしでも向上させるプラグアンドプレイ手法の有効性を実証する。
要約(オリジナル)
Contrastive Language-Image Pretraining (CLIP) has demonstrated great zero-shot performance for matching images and text. However, it is still challenging to adapt vision-lanaguage pretrained models like CLIP to compositional image and text matching — a more challenging image and text matching task requiring the model understanding of compositional word concepts and visual components. Towards better compositional generalization in zero-shot image and text matching, in this paper, we study the problem from a causal perspective: the erroneous semantics of individual entities are essentially confounders that cause the matching failure. Therefore, we propose a novel \textbf{\textit{training-free}} compositional CLIP model (ComCLIP). ComCLIP disentangles input images into subjects, objects, and action sub-images and composes CLIP’s vision encoder and text encoder to perform evolving matching over compositional text embedding and sub-image embeddings. In this way, ComCLIP can mitigate spurious correlations introduced by the pretrained CLIP models and dynamically evaluate the importance of each component. Experiments on four compositional image-text matching datasets: SVO, ComVG, Winoground, and VL-checklist, and two general image-text retrieval datasets: Flick30K, and MSCOCO demonstrate the effectiveness of our plug-and-play method, which boosts the \textbf{\textit{zero-shot}} inference ability of CLIP, SLIP, and BLIP2 even without further training or fine-tuning.
arxiv情報
著者 | Kenan Jiang,Xuehai He,Ruize Xu,Xin Eric Wang |
発行日 | 2023-09-01 05:07:18+00:00 |
arxivサイト | arxiv_id(pdf) |