要約
CLIP は、大規模な画像とテキストのペアに対する対照学習を使用して、画像とテキストの特徴を共有スペースに配置する基本的なマルチモーダル モデルです。
その強みは、自然言語を豊富な監視信号として活用することにあります。
大規模言語モデル (LLM) の急速な進歩に伴い、CLIP のマルチモーダル表現学習をさらに強化する可能性を探ります。
この取り組みでは、LLM を事前トレーニング済みの CLIP ビジュアル エンコーダと統合する微調整アプローチを導入し、LLM の高度なテキスト理解とオープンワールドの知識を活用して、長く複雑なキャプションを処理する CLIP の能力を向上させます。
LLM の自己回帰的性質の課題に対処するために、出力の識別力を強化するキャプション間の対比学習フレームワークを提案します。
私たちの方法は、さまざまな下流タスクで大幅なパフォーマンスの向上を達成し、マルチモーダル学習を強化するために LLM と CLIP を組み合わせることの有効性を示しています。
要約(オリジナル)
CLIP is a foundational multimodal model that aligns image and text features into a shared space using contrastive learning on large-scale image-text pairs. Its strength lies in leveraging natural language as a rich supervisory signal. With the rapid progress of large language models (LLMs), we explore their potential to further enhance CLIP’s multimodal representation learning. This work introduces a fine-tuning approach that integrates LLMs with the pretrained CLIP visual encoder, leveraging LLMs’ advanced text understanding and open-world knowledge to improve CLIP’s ability to process long and complex captions. To address the challenge of LLMs’ autoregressive nature, we propose a caption-to-caption contrastive learning framework to enhance the discriminative power of their outputs. Our method achieves substantial performance gains on various downstream tasks, demonstrating the effectiveness of combining LLMs with CLIP for enhanced multimodal learning.
arxiv情報
著者 | Weiquan Huang,Aoqi Wu,Yifan Yang,Xufang Luo,Yuqing Yang,Liang Hu,Qi Dai,Xiyang Dai,Dongdong Chen,Chong Luo,Lili Qiu |
発行日 | 2024-11-26 18:59:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google