VeCLIP: Improving CLIP Training via Visual-enriched Captions

要約

Web クロールされた大規模なデータセットは、CLIP などの視覚言語モデルの事前トレーニングを成功させるための基礎です。
ただし、Web クロールされた AltText に固有のノイズと潜在的な無関係性により、画像とテキストの正確な位置合わせを実現する際に課題が生じます。
キャプションの書き換えに大規模言語モデル (LLM) を利用する既存の方法は、CC3M や CC12M のような厳選された小規模なデータセットで有望であることが示されています。
この研究では、ノイズの多いキャプション書き換えのためのスケーラブルなパイプラインを導入しています。
最近の LLM 書き換え技術とは異なり、Visual-enriched Captions (VeCap) と呼ばれる、ビジュアル概念をキャプションに組み込むことに重点を置いています。
データの多様性を確保するために、新しく生成された VeCap と合わせて AltText の利用を最適化する新しい混合トレーニング スキームを提案します。
VeCLIP と呼ばれる、Web クロールされた大規模なデータセットで CLIP をトレーニングするためのこの方法の適応を紹介します。
このコスト効率の高いパイプラインを採用することで、VeCap データセットという名前のデータセットを最大 3 億サンプルまで簡単に拡張できます。
私たちの結果は、画像とテキストの位置合わせと全体的なモデルのパフォーマンスにおいて大きな利点があることを示しています。
たとえば、VeCLIP は、12M 設定で COCO および Flickr30k 取得タスクで最大 +25.2% のゲインを達成します。
データ効率を高めるために、VeCLIP は +3% のゲインを達成しながら、バニラ CLIP で使用されるデータの 14% と ALIGN で使用されるデータの 11% のみを使用します。
また、VeCap データは、ゼロショット分類タスクに適した他のよく厳選されたデータセットと補完的であることにも注目します。
VeCap と DFN を組み合わせると、私たちのモデルは画像テキスト検索タスクとゼロショット分類タスクの両方で強力なパフォーマンスを達成できます。
H/14 モデルの ImageNet ゼロショットで 83.1% の精度@1。
事前トレーニングされたモデルは https://github.com/apple/ml-veclip でリリースされます。

要約(オリジナル)

Large-scale web-crawled datasets are fundamental for the success of pre-training vision-language models, such as CLIP. However, the inherent noise and potential irrelevance of web-crawled AltTexts pose challenges in achieving precise image-text alignment. Existing methods utilizing large language models (LLMs) for caption rewriting have shown promise on small, curated datasets like CC3M and CC12M. This study introduces a scalable pipeline for noisy caption rewriting. Unlike recent LLM rewriting techniques, we emphasize the incorporation of visual concepts into captions, termed as Visual-enriched Captions (VeCap). To ensure data diversity, we propose a novel mixed training scheme that optimizes the utilization of AltTexts alongside newly generated VeCap. We showcase the adaptation of this method for training CLIP on large-scale web-crawled datasets, termed VeCLIP. Employing this cost-effective pipeline, we effortlessly scale our dataset up to 300 million samples named VeCap dataset. Our results show significant advantages in image-text alignment and overall model performance. For example, VeCLIP achieves up to +25.2% gain in COCO and Flickr30k retrieval tasks under the 12M setting. For data efficiency, VeCLIP achieves +3% gain while only using 14% of the data employed in the vanilla CLIP and 11% in ALIGN. We also note the VeCap data is complementary with other well curated datasets good for zero-shot classification tasks. When combining VeCap and DFN, our model can achieve strong performance on both of image-text retrieval and zero-shot classification tasks, e.g. 83.1% accuracy@1 on ImageNet zero-shot for a H/14 model. We release the pre-trained models at https://github.com/apple/ml-veclip.

arxiv情報

著者 Zhengfeng Lai,Haotian Zhang,Bowen Zhang,Wentao Wu,Haoping Bai,Aleksei Timofeev,Xianzhi Du,Zhe Gan,Jiulong Shan,Chen-Nee Chuah,Yinfei Yang,Meng Cao
発行日 2024-03-07 18:25:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク