要約
Contrastive Language-Image Pre-training (CLIP) は、ゼロショット分類およびクロスモーダル視覚言語タスクにおいて顕著な改善を示しました。
しかし、幾何学的観点から見ると、CLIP 埋め込み空間には顕著なモダリティ ギャップがあることがわかっています。
このギャップにより、埋め込み空間が過度にまばらで切断され、さまざまなモダリティが超球の個別のサブ領域に密に分散されます。
この研究では、次の 2 つの主要な質問に答えることを目的としています。 1. マルチモーダル エンコーダ間でパラメータ空間を共有すると、モダリティ ギャップは減少しますか?
2. モダリティ内分離を介してユニモーダル埋め込みを押し広げることでギャップを軽減できますか?
私たちは、これらの質問に答え、両方の質問に対する答えが肯定的であることを示すために、AlignCLIP を設計しました。
広範な実験を通じて、AlignCLIP が埋め込みのクロスモーダル位置合わせにおいて顕著な強化を達成し、それによってモダリティ ギャップを削減しながら、ゼロショット画像分類、ゼロショット マルチなど、いくつかの下流評価にわたってパフォーマンスを維持できることを示しました。
-モーダル検索とゼロショットセマンティックテキストの類似性。
要約(オリジナル)
Contrastive Language–Image Pre-training (CLIP) has manifested remarkable improvements in zero-shot classification and cross-modal vision-language tasks. Yet, from a geometrical point of view, the CLIP embedding space has been found to have a pronounced modality gap. This gap renders the embedding space overly sparse and disconnected, with different modalities being densely distributed in distinct subregions of the hypersphere. In this work, we aim at answering two main questions: 1. Does sharing the parameter space between the multi-modal encoders reduce the modality gap? 2. Can the gap be mitigated by pushing apart the uni-modal embeddings via intra-modality separation? We design AlignCLIP, in order to answer these questions and show that answers to both questions are positive. Through extensive experiments, we show that AlignCLIP achieves noticeable enhancements in the cross-modal alignment of the embeddings, and thereby, reduces the modality gap, while maintaining the performance across several downstream evaluations, such as zero-shot image classification, zero-shot multi-modal retrieval and zero-shot semantic text similarity.
arxiv情報
著者 | Sedigheh Eslami,Gerard de Melo |
発行日 | 2024-06-25 15:24:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google