要約
コントラスト言語画像事前学習(CLIP)は、様々なアプリケーションを促進する画像/テキスト表現を生成するビジョンエンコーダを訓練するための有名な手法である。近年、CLIPは、言語相互作用のための画像入力を接続するためのマルチモーダル大規模言語モデル(MLLM)の視覚バックボーンとして広く採用されている。視覚-言語基盤モデルとしてのCLIPの成功は、ウェブクローリングされたノイズの多いテキスト注釈を画像レベルで整列させることに依存している。それにもかかわらず、このような基準は、特に領域レベルの理解がMLLMに要求されるような、きめ細かい視覚表現を必要とする下流のタスクには不十分となる可能性がある。本論文では、CLIPのローカリゼーション能力をいくつかの進歩により向上させる。CLIPを領域-テキスト対比損失とモジュールで補完することで、CLOC(Contrastive Localized Language-Image Pre-training)と呼ばれる事前学習法を提案する。CLOCでは、空間的なヒントが与えられると、エンコーダが領域表現に変換しやすい画像埋め込みを生成する。大規模な事前学習をサポートするために、視覚的に強化され、空間的に局所化されたキャプションフレームワークを設計し、領域テキスト擬似ラベルを効果的に生成する。CLOCは、数十億の注釈付き画像までスケールアップすることで、画像領域の認識と検索タスクのための高品質な領域埋め込みを可能にし、特に参照と接地タスクにおいて、MLLMを強化するためのCLIPのドロップイン置き換えとなり得る。
要約(オリジナル)
Contrastive Language-Image Pre-training (CLIP) has been a celebrated method for training vision encoders to generate image/text representations facilitating various applications. Recently, CLIP has been widely adopted as the vision backbone of multimodal large language models (MLLMs) to connect image inputs for language interactions. The success of CLIP as a vision-language foundation model relies on aligning web-crawled noisy text annotations at image levels. Nevertheless, such criteria may become insufficient for downstream tasks in need of fine-grained vision representations, especially when region-level understanding is demanding for MLLMs. In this paper, we improve the localization capability of CLIP with several advances. We propose a pre-training method called Contrastive Localized Language-Image Pre-training (CLOC) by complementing CLIP with region-text contrastive loss and modules. We formulate a new concept, promptable embeddings, of which the encoder produces image embeddings easy to transform into region representations given spatial hints. To support large-scale pre-training, we design a visually-enriched and spatially-localized captioning framework to effectively generate region-text pseudo-labels at scale. By scaling up to billions of annotated images, CLOC enables high-quality regional embeddings for image region recognition and retrieval tasks, and can be a drop-in replacement of CLIP to enhance MLLMs, especially on referring and grounding tasks.
arxiv情報
著者 | Hong-You Chen,Zhengfeng Lai,Haotian Zhang,Xinze Wang,Marcin Eichner,Keen You,Meng Cao,Bowen Zhang,Yinfei Yang,Zhe Gan |
発行日 | 2024-10-03 17:56:09+00:00 |
arxivサイト | arxiv_id(pdf) |