Mitigate the Gap: Investigating Approaches for Improving Cross-Modal Alignment in CLIP

要約

Contrastive Language-Image Pre-training (CLIP) は、ゼロショット分類およびクロスモーダル視覚言語タスクにおいて顕著な改善を示しました。
しかし、幾何学的観点から見ると、CLIP 埋め込み空間には顕著なモダリティ ギャップがあることがわかっています。
このギャップにより、埋め込み空間が過度にまばらで切断され、さまざまなモダリティが超球の個別のサブ領域に密に分散されます。
この研究では、次の 3 つの主要な質問に答えることを目的としています。 1. マルチモーダル エンコーダ間でパラメータ空間を共有すると、モダリティ ギャップは減少しますか?
2. モダリティ内分離を介してユニモーダル埋め込みを押し広げることでギャップを軽減できますか?
3. これらのギャップ削減アプローチは下流のパフォーマンスにどのような影響を与えますか?
私たちは、これらの質問に答えるために AlignCLIP を設計し、広範な実験を通じて、AlignCLIP が埋め込みのクロスモーダル位置合わせにおいて顕著な強化を達成し、それによってモダリティ ギャップを削減しながら、いくつかのゼロショットと複数のショットにわたるパフォーマンスを向上させることを示しました。
下流の評価を微調整します。

要約(オリジナル)

Contrastive Language–Image Pre-training (CLIP) has manifested remarkable improvements in zero-shot classification and cross-modal vision-language tasks. Yet, from a geometrical point of view, the CLIP embedding space has been found to have a pronounced modality gap. This gap renders the embedding space overly sparse and disconnected, with different modalities being densely distributed in distinct subregions of the hypersphere. In this work, we aim at answering three main questions: 1. Does sharing the parameter space between the multi-modal encoders reduce the modality gap? 2. Can the gap be mitigated by pushing apart the uni-modal embeddings via intra-modality separation? 3. How do these gap reduction approaches affect the downstream performance? We design AlignCLIP, in order to answer these questions and through extensive experiments, we show that AlignCLIP achieves noticeable enhancements in the cross-modal alignment of the embeddings, and thereby, reduces the modality gap, while improving the performance across several zero-shot and fine-tuning downstream evaluations.

arxiv情報

著者 Sedigheh Eslami,Gerard de Melo
発行日 2024-09-16 15:32:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク