要約
Web クロールされたデータセットは、CLIP に代表される、視覚言語モデルの事前トレーニングの成功に極めて重要です。
ただし、Web クロールされた AltText はノイズが多く、画像と無関係である可能性があるため、重要な画像とテキストの配置が損なわれる可能性があります。
大規模言語モデル (LLM) を使用してキャプションを書き換える既存の方法は、CC3M や CC12M のような小規模で厳選されたデータセットで有望であることが示されています。
それにもかかわらず、Web でキャプチャされた大量のキャプションに対するその有効性は、そのようなデータに固有のノイズとランダム性によって制限されます。
この研究では、データの品質とデータの多様性という 2 つの重要な側面に焦点を当てることで、この制限に対処します。
最近の LLM 書き換え技術とは異なり、データ品質を向上させるために、視覚的な概念を活用し、それらをキャプションに統合することに重点を置いています。
データの多様性については、新しく生成された Visual-enriched Captions (VeC) とともに AltText を最適に活用する、新しい混合トレーニング スキームを提案します。
一例として CLIP を使用し、VeCLIP という名前の大規模な Web クロール データセットでの CLIP トレーニングの方法を適応させます。
私たちは、小規模、中規模、大規模の生データにわたって VeCLIP の包括的な評価を実施します。
私たちの結果は、画像とテキストの位置合わせと全体的なモデルのパフォーマンスに大きな利点があることを示しており、CLIP トレーニングの改善における VeCLIP の有効性を強調しています。
たとえば、VeCLIP は、12M 設定下で COCO および Flickr30k の検索タスクにおいて 20% 以上の顕著な改善を達成しました。
データ効率に関しても、バニラ CLIP では 14%、ALIGN では 11% のデータのみを使用しながら、3% を超える顕著な改善を達成しました。
要約(オリジナル)
Web-crawled datasets are pivotal to the success of pre-training vision-language models, exemplified by CLIP. However, web-crawled AltTexts can be noisy and potentially irrelevant to images, thereby undermining the crucial image-text alignment. Existing methods for rewriting captions using large language models (LLMs) have shown promise on small, curated datasets like CC3M and CC12M. Nevertheless, their efficacy on massive web-captured captions is constrained by the inherent noise and randomness in such data. In this study, we address this limitation by focusing on two key aspects: data quality and data variety. Unlike recent LLM rewriting techniques, we emphasize exploiting visual concepts and their integration into the captions to improve data quality. For data variety, we propose a novel mixed training scheme that optimally leverages AltTexts alongside newly generated Visual-enriched Captions (VeC). We use CLIP as one example and adapt the method for CLIP training on large-scale web-crawled datasets, named VeCLIP. We conduct a comprehensive evaluation of VeCLIP across small, medium, and large scales of raw data. Our results show significant advantages in image-text alignment and overall model performance, underscoring the effectiveness of VeCLIP in improving CLIP training. For example, VeCLIP achieves a remarkable over 20% improvement in COCO and Flickr30k retrieval tasks under the 12M setting. For data efficiency, we also achieve a notable over 3% improvement while using only 14% of the data employed in the vanilla CLIP and 11% in ALIGN.
arxiv情報
著者 | Zhengfeng Lai,Haotian Zhang,Wentao Wu,Haoping Bai,Aleksei Timofeev,Xianzhi Du,Zhe Gan,Jiulong Shan,Chen-Nee Chuah,Yinfei Yang,Meng Cao |
発行日 | 2023-10-11 17:49:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google