Fill the Gap: Quantifying and Reducing the Modality Gap in Image-Text Representation Learning

要約

ビジョン言語モデル(VLM)により、共有表現スペースにテキストと画像を埋め込むことができます。
ただし、これらのモデルはモダリティギャップ現象の対象となることが示されています。つまり、1つのモダリティからの埋め込みと埋め込み空間に埋め込みの間に明確な分離が存在することを意味します。
この不整合は、マルチモーダル検索、マルチモーダルクラスタリング、ゼロショット分類などの下流タスクにとって有害で​​すが、それを正確に評価し、さらに減らすための一般的で実用的な方法は提案されていません。
したがって、この目標を達成するために、新しい対策と効果的な手法(スペクトルおよび最適な輸送ベースの方法)を提案します。
いくつかの画像テキストデータセットとモデルで実施された広範な実験は、下流タスクに対する有効性と有益な効果を示しています。
私たちのコードは、論文の要約で提供されるURLで入手できます。

要約(オリジナル)

Vision-language models (VLMs) allow to embed texts and images in a shared representation space. However, it has been shown that these models are subject to a modality gap phenomenon meaning there exists a clear separation between the embeddings from one modality and another in the embedding space. While this misalignment is detrimental for downstream tasks such as multimodal retrieval, multimodal clustering or zero-shot classification, etc. no generic and practical methods have so far been proposed to assess it precisely and even reduce it. We therefore propose novel measures and effective techniques (spectral- and optimal transport-based methods) to achieve this goal. Extensive experiments conducted on several image-text datasets and models demonstrate their effectiveness and beneficial effects on downstream tasks. Our code is available at the URL provided in the paper’s abstract.

arxiv情報

著者 François Role,Sébastien Meyer,Victor Amblard
発行日 2025-05-06 17:24:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク