要約
CLIP は、今日最も重要なマルチモーダル基礎モデルの 1 つです。
CLIP の機能を強化するものは何ですか?
人間の知識の伝達者である自然言語によって提供される豊富な監視信号は、強力なクロスモーダル表現空間を形成します。
しかし、GPT-4 や LLaMA などの大規模言語モデル LLM の急速な進歩により、言語の理解と生成の境界は常に押し広げられています。
これは興味深い疑問を引き起こします。LLM の機能を利用して、マルチモーダル表現学習をさらに改善できるでしょうか?
LLM を CLIP に組み込むことの潜在的な利点は明らかです。
LLM の強力なテキスト理解により、画像キャプションを処理する CLIP の能力が根本的に向上し、バニラ CLIP のよく知られた制限である長く複雑なテキストを処理する能力が大幅に向上します。
さらに、LLM は膨大なテキストのコーパスでトレーニングされており、オープンワールドの知識を備えています。
これにより、トレーニング中にキャプション情報を拡張できるようになり、学習プロセスの効率が向上します。
このペーパーでは、LLM の力を活用して CLIP の可能性を引き出す新しいアプローチである LLM2CLIP を提案します。
対照学習を使用してキャプション空間内の LLM を微調整することで、そのテキスト機能を出力エンベディングに抽出し、出力層のテキスト識別能力を大幅に向上させます。
次に、微調整された LLM が CLIP のビジュアル エンコーダーの強力な教師として機能する、効率的なトレーニング プロセスを設計します。
LLM の存在のおかげで、バニラ CLIP のテキスト エンコーダのコンテキスト ウィンドウや機能の制限に制限されることなく、より長く複雑なキャプションを組み込むことができるようになりました。
私たちの実験は、このアプローチがクロスモーダル タスクに大幅な改善をもたらすことを示しています。
要約(オリジナル)
CLIP is one of the most important multimodal foundational models today. What powers CLIP’s capabilities? The rich supervision signals provided by natural language, the carrier of human knowledge, shape a powerful cross-modal representation space. However, with the rapid advancements in large language models LLMs like GPT-4 and LLaMA, the boundaries of language comprehension and generation are continually being pushed. This raises an intriguing question: can the capabilities of LLMs be harnessed to further improve multimodal representation learning? The potential benefits of incorporating LLMs into CLIP are clear. LLMs’ strong textual understanding can fundamentally improve CLIP’s ability to handle image captions, drastically enhancing its ability to process long and complex texts, a well-known limitation of vanilla CLIP. Moreover, LLMs are trained on a vast corpus of text, possessing open-world knowledge. This allows them to expand on caption information during training, increasing the efficiency of the learning process. In this paper, we propose LLM2CLIP, a novel approach that embraces the power of LLMs to unlock CLIP’s potential. By fine-tuning the LLM in the caption space with contrastive learning, we extract its textual capabilities into the output embeddings, significantly improving the output layer’s textual discriminability. We then design an efficient training process where the fine-tuned LLM acts as a powerful teacher for CLIP’s visual encoder. Thanks to the LLM’s presence, we can now incorporate longer and more complex captions without being restricted by vanilla CLIP’s text encoder’s context window and ability limitations. Our experiments demonstrate that this approach brings substantial improvements in cross-modal tasks.
arxiv情報
著者 | Weiquan Huang,Aoqi Wu,Yifan Yang,Xufang Luo,Yuqing Yang,Liang Hu,Qi Dai,Xiyang Dai,Dongdong Chen,Chong Luo,Lili Qiu |
発行日 | 2024-11-07 18:59:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google