ALIP: Adaptive Language-Image Pre-training with Synthetic Caption

要約

Contrastive Language-Image Pre-training (CLIP) は、Web から収集した画像とテキストのペアを使用してデータセットをスケールアップすることで、さまざまな視覚言語タスクのパフォーマンスを大幅に向上させました。
ただし、Web データ内に固有のノイズや一致しない画像とテキストのペアが存在すると、表現学習のパフォーマンスに影響を与える可能性があります。
この問題に対処するために、まず OFA モデルを利用して、画像コンテンツに焦点を当てた合成キャプションを生成します。
生成されたキャプションには、事前トレーニングに役立つ補足情報が含まれています。
次に、生のテキストと合成キャプションの両方からの監視を統合するバイパス モデルである適応型言語画像事前トレーニング (ALIP) を提案します。
ALIP のコア コンポーネントである言語一貫性ゲート (LCG) と説明一貫性ゲート (DCG) は、トレーニング プロセス中にサンプルと画像、テキスト、キャプションのペアの重みを動的に調整します。
一方、適応型コントラスト損失はノイズ データの影響を効果的に軽減し、事前トレーニング データの効率を向上させることができます。
さまざまなスケールのモデルと事前トレーニング データセットでの実験により、ALIP を検証します。
実験結果は、ALIP がゼロショット画像テキスト検索や線形プローブなどの複数の下流タスクで最先端のパフォーマンスを達成することを示しています。
将来の研究を促進するために、コードと事前トレーニングされたモデルは https://github.com/deepglint/ALIP でリリースされます。

要約(オリジナル)

Contrastive Language-Image Pre-training (CLIP) has significantly boosted the performance of various vision-language tasks by scaling up the dataset with image-text pairs collected from the web. However, the presence of intrinsic noise and unmatched image-text pairs in web data can potentially affect the performance of representation learning. To address this issue, we first utilize the OFA model to generate synthetic captions that focus on the image content. The generated captions contain complementary information that is beneficial for pre-training. Then, we propose an Adaptive Language-Image Pre-training (ALIP), a bi-path model that integrates supervision from both raw text and synthetic caption. As the core components of ALIP, the Language Consistency Gate (LCG) and Description Consistency Gate (DCG) dynamically adjust the weights of samples and image-text/caption pairs during the training process. Meanwhile, the adaptive contrastive loss can effectively reduce the impact of noise data and enhances the efficiency of pre-training data. We validate ALIP with experiments on different scales of models and pre-training datasets. Experiments results show that ALIP achieves state-of-the-art performance on multiple downstream tasks including zero-shot image-text retrieval and linear probe. To facilitate future research, the code and pre-trained models are released at https://github.com/deepglint/ALIP.

arxiv情報

著者 Kaicheng Yang,Jiankang Deng,Xiang An,Jiawei Li,Ziyong Feng,Jia Guo,Jing Yang,Tongliang Liu
発行日 2023-08-18 04:04:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク