LightCLIP: Learning Multi-Level Interaction for Lightweight Vision-Language Models

要約

CLIPのような視覚言語事前学習は、ゼロショット画像分類や画像テキスト検索などの様々な下流タスクにおいて有望な性能を示している。既存のCLIPに類似した研究のほとんどは、通常ResNet50やViTのような比較的大きな画像エンコーダを採用しており、軽量なものはほとんど議論されていない。本論文では、軽量CLIPモデルを学習するためのマルチレベル相互作用パラダイムを提案する。第一に、画像とテキストのペアが厳密には一対一対応ではないという問題を緩和するために、ネガティブサンプルのラベルを段階的に柔らかくすることで、従来の大域的なインスタンスレベルのアライメント目標を改善する。第二に、画像パッチとテキスト単語間のきめ細かな位置合わせのために、緩和された二分割マッチングに基づくトークンレベルの位置合わせ目的を導入する。さらに、CLIPモデルの精度は、テキストエンコーダのパラメータが増加するにつれて増加しないという観察に基づき、短縮テキストエンコーダの可能性を最大化するために、マスク言語モデリング(MLM)の追加目的が活用される。実際には、MLMを強化するために、異なるネットワークステージにおいて、マスクされていない画像埋め込みをマスクされたテキスト埋め込みに注入する補助融合モジュールを提案する。広範な実験により、推論時に追加の計算コストを導入することなく、提案手法は複数の下流タスクにおいて高い性能を達成することが示される。

要約(オリジナル)

Vision-language pre-training like CLIP has shown promising performance on various downstream tasks such as zero-shot image classification and image-text retrieval. Most of the existing CLIP-alike works usually adopt relatively large image encoders like ResNet50 and ViT, while the lightweight counterparts are rarely discussed. In this paper, we propose a multi-level interaction paradigm for training lightweight CLIP models. Firstly, to mitigate the problem that some image-text pairs are not strictly one-to-one correspondence, we improve the conventional global instance-level alignment objective by softening the label of negative samples progressively. Secondly, a relaxed bipartite matching based token-level alignment objective is introduced for finer-grained alignment between image patches and textual words. Moreover, based on the observation that the accuracy of CLIP model does not increase correspondingly as the parameters of text encoder increase, an extra objective of masked language modeling (MLM) is leveraged for maximizing the potential of the shortened text encoder. In practice, an auxiliary fusion module injecting unmasked image embedding into masked text embedding at different network stages is proposed for enhancing the MLM. Extensive experiments show that without introducing additional computational cost during inference, the proposed method achieves a higher performance on multiple downstream tasks.

arxiv情報

著者 Ying Nie,Wei He,Kai Han,Yehui Tang,Tianyu Guo,Fanyi Du,Yunhe Wang
発行日 2023-12-01 15:54:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク