要約
CLIP (Radford et al., 2021) の多大な成功により、視覚-言語事前学習のためのコントラスト学習の研究と応用が促進された。本研究では、ほとんどのデータが一般に公開されているデータセットから取得された中国語の画像-テキストペアの大規模データセットを構築し、新しいデータセットで中国語CLIPモデルを事前学習させる。我々は7700万から9億5800万パラメータに及ぶ複数のサイズの5つの中国語CLIPモデルを開発する。さらに、モデル性能を向上させるために、まず画像エンコーダを凍結した状態でモデルを学習し、次に全てのパラメータを最適化した状態で学習するという、2段階の事前学習法を提案する。我々の包括的な実験により、Chinese CLIPはMUGE、Flickr30K-CN、COCO-CNにおいて、ゼロショット学習と微調整のセットアップで最先端の性能を達成でき、ELEVATERベンチマークでの評価に基づいてゼロショット画像分類で競争力のある性能を達成できることが示されました(Li et al, 2022)。我々は、コード、モデル、デモを https://github.com/OFA-Sys/Chinese-CLIP で公開している。
要約(オリジナル)
The tremendous success of CLIP (Radford et al., 2021) has promoted the research and application of contrastive learning for vision-language pretraining. In this work, we construct a large-scale dataset of image-text pairs in Chinese, where most data are retrieved from publicly available datasets, and we pretrain Chinese CLIP models on the new dataset. We develop 5 Chinese CLIP models of multiple sizes, spanning from 77 to 958 million parameters. Furthermore, we propose a two-stage pretraining method, where the model is first trained with the image encoder frozen and then trained with all parameters being optimized, to achieve enhanced model performance. Our comprehensive experiments demonstrate that Chinese CLIP can achieve the state-of-the-art performance on MUGE, Flickr30K-CN, and COCO-CN in the setups of zero-shot learning and finetuning, and it is able to achieve competitive performance in zero-shot image classification based on the evaluation on the ELEVATER benchmark (Li et al., 2022). We have released our codes, models, and demos in https://github.com/OFA-Sys/Chinese-CLIP
arxiv情報
著者 | An Yang,Junshu Pan,Junyang Lin,Rui Men,Yichang Zhang,Jingren Zhou,Chang Zhou |
発行日 | 2022-11-03 13:21:44+00:00 |
arxivサイト | arxiv_id(pdf) |