Improving CLIP Training with Language Rewrites

要約

Contrastive Language-Image Pre-training (CLIP) は、画像とテキストのペアデータを使用して転送可能な視覚モデルをトレーニングするための最も効果的でスケーラブルな方法の 1 つです。
CLIP モデルは、対比損失を使用してトレーニングされます。通常、過剰適合やショートカットを防ぐためにデータ拡張に依存します。
ただし、CLIP トレーニング パラダイムでは、データ拡張は画像入力のみに適用されますが、言語入力はトレーニング プロセス全体を通じて変更されないため、同じ画像へのさまざまなテキストの露出が制限されます。
このペーパーでは、言語の書き換えを通じて CLIP トレーニングを強化するためのシンプルでありながら非常に効果的なアプローチである、Language augmented CLIP (LaCLIP) を紹介します。
大規模な言語モデルのコンテキスト内学習機能を活用して、各画像に関連付けられたテキストの説明を書き換えます。
これらの書き直されたテキストは、元の主要な概念と意味を維持しながら、文構造と語彙の多様性を示しています。
トレーニング中に、LaCLIP は、各画像のテキスト拡張として、元のテキストまたは書き換えられたバージョンのいずれかをランダムに選択します。
CC3M、CC12M、RedCaps、LAION-400M データセットに関する広範な実験により、言語書き換えを伴う CLIP 事前トレーニングにより、トレーニング中の計算やメモリのオーバーヘッドなしで転送パフォーマンスが大幅に向上することが示されました。
特に ImageNet のゼロショット精度に関しては、LaCLIP は CLIP を CC12M で 8.2%、LAION-400M で 2.4% 上回っています。
コードは https://github.com/LijieFan/LaCLIP で入手できます。

要約(オリジナル)

Contrastive Language-Image Pre-training (CLIP) stands as one of the most effective and scalable methods for training transferable vision models using paired image and text data. CLIP models are trained using contrastive loss, which typically relies on data augmentations to prevent overfitting and shortcuts. However, in the CLIP training paradigm, data augmentations are exclusively applied to image inputs, while language inputs remain unchanged throughout the entire training process, limiting the exposure of diverse texts to the same image. In this paper, we introduce Language augmented CLIP (LaCLIP), a simple yet highly effective approach to enhance CLIP training through language rewrites. Leveraging the in-context learning capability of large language models, we rewrite the text descriptions associated with each image. These rewritten texts exhibit diversity in sentence structure and vocabulary while preserving the original key concepts and meanings. During training, LaCLIP randomly selects either the original texts or the rewritten versions as text augmentations for each image. Extensive experiments on CC3M, CC12M, RedCaps and LAION-400M datasets show that CLIP pre-training with language rewrites significantly improves the transfer performance without computation or memory overhead during training. Specifically for ImageNet zero-shot accuracy, LaCLIP outperforms CLIP by 8.2% on CC12M and 2.4% on LAION-400M. Code is available at https://github.com/LijieFan/LaCLIP.

arxiv情報

著者 Lijie Fan,Dilip Krishnan,Phillip Isola,Dina Katabi,Yonglong Tian
発行日 2023-05-31 17:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク