要約
近年、CLIPは、マルチモーダルなシナリオにおいて画像とテキスト情報を整合させるための価値あるモデルとして登場した。しかし、CLIPのテキストエンコーダと画像エンコーダが、キャプションと画像のペアから詳細な知識を抽出する能力には限界があることが研究者により指摘されている。そこで本論文では、Llama 2から派生した新しい知識抽出(KD)手法を取り入れることで、CLIPの品質を向上させるように設計された新しいアプローチであるKKLIPを紹介する。我々の手法は3つの目的から構成される:テキスト埋め込み蒸留、概念学習、対照学習である。まず、テキスト埋め込み蒸留では、教師モデルであるLlama 2をエミュレートするようにKKLIPテキストエンコーダを訓練する。次に、概念学習は、Llama 2からのテキスト情報のオフラインk-meansクラスタリングを通じて、各キャプション-画像のペアにソフトな概念ラベルを割り当て、KKLIPがこれらのソフトな概念ラベルから学習できるようにする。最後に、対照学習はテキストと画像の埋め込みを調和させる。我々の実験結果は、KKLIPがテキストエンコーダと画像エンコーダの両方の品質を向上させることを示している。
要約(オリジナル)
Recently, CLIP has emerged as a valuable model for aligning image and text information in multi-modal scenarios. However, researchers have observed limitations in the ability of CLIP’s text and image encoders to extract detailed knowledge from caption-image pairs. In response, this paper introduces KKLIP, a novel approach designed to enhance the quality of CLIP by incorporating a new knowledge distillation (KD) method derived from Llama 2. Our method comprises three objectives: Text Embedding Distillation, Concept Learning, and Contrastive Learning. Firstly, Text Embedding Distillation involves training the KKLIP text encoder to emulate the teacher model, Llama 2. Secondly, Concept Learning assigns a soft concept label to each caption-image pair through offline k-means clustering of text information from Llama 2, allowing KKLIP to learn from these soft concept labels. Finally, Contrastive Learning harmonizes text and image embeddings. Our experimental results demonstrate that KKLIP enhances the quality of both text and image encoders.
arxiv情報
著者 | Kuei-Chun Kao |
発行日 | 2024-12-04 17:56:49+00:00 |
arxivサイト | arxiv_id(pdf) |