要約
対照的言語イメージ事前トレーニング (CLIP) をスケールアップすることは、視覚モデルとマルチモーダル モデルの両方を強化するために重要です。
EVA-CLIP-18B は、180 億のパラメーターを備えた、これまでで最大かつ最も強力なオープンソース CLIP モデルです。
EVA-CLIP-18B は、わずか 60 億のトレーニング サンプルで、広く認識されている 27 の画像分類ベンチマークの平均で 80.7% という例外的なゼロショット トップ 1 精度を達成し、前身の EVA-CLIP (50 億パラメータ) やその他のオープンなパフォーマンスを上回ります。
-source CLIP モデルに大差をつけています。
注目すべきことに、LAION-2B と COYO-700M からの 20 億の画像とテキストのペアの一定のトレーニング データセットを維持しているにもかかわらず、EVA-CLIP のモデル サイズ スケーリングにより一貫したパフォーマンスの向上が観察されています。
このデータセットは公開されており、他の最先端の CLIP モデルで採用されている社内データセット (例: DFN-5B、WebLI-10B) よりもはるかに小さいです。
EVA-CLIP-18B は、EVA スタイルの弱から強のビジュアル モデル スケーリングの可能性を示します。
モデルの重みが公開されたことで、ビジョンおよびマルチモーダル基礎モデルの将来の研究が促進されることを期待しています。
要約(オリジナル)
Scaling up contrastive language-image pretraining (CLIP) is critical for empowering both vision and multimodal models. We present EVA-CLIP-18B, the largest and most powerful open-source CLIP model to date, with 18-billion parameters. With only 6-billion training samples seen, EVA-CLIP-18B achieves an exceptional 80.7% zero-shot top-1 accuracy averaged across 27 widely recognized image classification benchmarks, outperforming its forerunner EVA-CLIP (5-billion parameters) and other open-source CLIP models by a large margin. Remarkably, we observe a consistent performance improvement with the model size scaling of EVA-CLIP, despite maintaining a constant training dataset of 2-billion image-text pairs from LAION-2B and COYO-700M. This dataset is openly available and much smaller than the in-house datasets (e.g., DFN-5B, WebLI-10B) employed in other state-of-the-art CLIP models. EVA-CLIP-18B demonstrates the potential of EVA-style weak-to-strong visual model scaling. With our model weights made publicly available, we hope to facilitate future research in vision and multimodal foundation models.
arxiv情報
著者 | Quan Sun,Jinsheng Wang,Qiying Yu,Yufeng Cui,Fan Zhang,Xiaosong Zhang,Xinlong Wang |
発行日 | 2024-02-06 18:59:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google