SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for Multimodal Alignment

要約

言語と視覚のマルチモーダルアライメントは、現在の視覚言語モデル研究の基本的なトピックである。代表的な手法であるContrastive Captioners (CoCa)は、Contrastive Language-Image Pretraining (CLIP)とImage Caption (IC)を統一的なフレームワークに統合し、印象的な結果をもたらす。CLIPは、画像全体と文の大域的表現に双方向の制約を課す。ICは局所的な表現に対して一方向の画像からテキストへの生成を行うが、局所的なテキストから画像への再構成に対する制約がないため、テキストとアライメントする際に画像をきめ細かなレベルで理解する能力が制限される。グローバルとローカルの両方の観点からマルチモーダルアライメントを実現するために、本稿では、グローバルとローカルの表現レベルを横断する画像とテキストの双方向の相互作用を導入するSymmetrizing Contrastive Captioners (SyCoCa)を提案する。具体的には、ITCヘッドとICヘッドに基づき、テキスト誘導マスク画像モデリング(TG-MIM)ヘッドを拡張する。改良されたSyCoCaは、文脈画像を再構成するためのテキスト手がかりと、テキスト内容を予測するための視覚的手がかりをさらに活用することができる。双方向の局所的相互作用を実装する場合、画像の局所的内容は乱雑になったり、テキスト記述と無関係になりがちである。そこで我々は、相互作用に有効な画像パッチを選択するために、注意深いマスキング戦略を採用する。画像-テキスト検索、画像キャプション付け、視覚的質問応答、ゼロショット/微調整画像分類を含む5つの視覚言語タスクに対する広範な実験により、提案手法の有効性を検証する。

要約(オリジナル)

Multimodal alignment between language and vision is the fundamental topic in current vision-language model research. Contrastive Captioners (CoCa), as a representative method, integrates Contrastive Language-Image Pretraining (CLIP) and Image Caption (IC) into a unified framework, resulting in impressive results. CLIP imposes a bidirectional constraints on global representation of entire images and sentences. Although IC conducts an unidirectional image-to-text generation on local representation, it lacks any constraint on local text-to-image reconstruction, which limits the ability to understand images at a fine-grained level when aligned with texts. To achieve multimodal alignment from both global and local perspectives, this paper proposes Symmetrizing Contrastive Captioners (SyCoCa), which introduces bidirectional interactions on images and texts across the global and local representation levels. Specifically, we expand a Text-Guided Masked Image Modeling (TG-MIM) head based on ITC and IC heads. The improved SyCoCa can further leverage textual cues to reconstruct contextual images and visual cues to predict textual contents. When implementing bidirectional local interactions, the local contents of images tend to be cluttered or unrelated to their textual descriptions. Thus, we employ an attentive masking strategy to select effective image patches for interaction. Extensive experiments on five vision-language tasks, including image-text retrieval, image-captioning, visual question answering, and zero-shot/finetuned image classification, validate the effectiveness of our proposed method.

arxiv情報

著者 Ziping Ma,Furong Xu,Jian Liu,Ming Yang,Qingpei Guo
発行日 2024-01-04 08:42:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク