FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens

要約

対照的言語-画像事前学習は、各モダリティ用の異なるエンコーダを介して、テキストと画像のペアの特徴を共通の潜在空間に揃える。このアプローチは、いくつかのゼロショットタスクにおいて素晴らしい性能を達成する一方で、マルチモーダル入力、すなわち画像とテキストを単一の特徴ベクトルにエンコードすることをネイティブに扱うことはできない。救済策として、ユニモーダルエンコーダによって抽出された特徴をマージするために、追加モジュールを使用することが一般的です。本研究では、マルチモーダルエンベッディングのための代替アーキテクチャであるFuseLIPを紹介する。離散画像トークン化器の最近の進歩を活用し、テキストと画像のトークンの拡張語彙で動作する単一の変換器モデルの使用を提案する。この早期融合アプローチにより、異なるモダリティが符号化の各深度において相互作用し、一般的な後期融合と比較してより豊かな表現を得ることができる。マルチモーダルな事前学習と評価のために新しいデータセットを収集し、マルチモーダルエンコーダモデルに挑戦的なタスクを設計する。FuseLIPが、VQAやテキストガイド付き画像変換検索のようなマルチモーダル埋め込みタスクにおいて、他のアプローチを凌駕する一方、ユニモーダルタスクではベースラインと同等であることを示す。

要約(オリジナル)

Contrastive language-image pre-training aligns the features of text-image pairs in a common latent space via distinct encoders for each modality. While this approach achieves impressive performance in several zero-shot tasks, it cannot natively handle multimodal inputs, i.e., encoding image and text into a single feature vector. As a remedy, it is common practice to use additional modules to merge the features extracted by the unimodal encoders. In this work, we present FuseLIP, an alternative architecture for multimodal embedding. Leveraging recent progress in discrete image tokenizers, we propose to use a single transformer model which operates on an extended vocabulary of text and image tokens. This early fusion approach allows the different modalities to interact at each depth of encoding and obtain richer representations compared to common late fusion. We collect new datasets for multimodal pre-training and evaluation, designing challenging tasks for multimodal encoder models. We show that FuseLIP outperforms other approaches in multimodal embedding tasks such as VQA and text-guided image transformation retrieval, while being comparable to baselines on unimodal tasks.

arxiv情報

著者 Christian Schlarmann,Francesco Croce,Nicolas Flammarion,Matthias Hein
発行日 2025-06-03 17:27:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク