要約
【タイトル】CLIPトレーニングにおける逆スケーリング則
【要約】
– CLIPは画像とテキストを結びつける初めての基礎的なモデルであり、コンピュータビジョンの多くの最近の突破口を実現している
– しかし、そのトレーニングコストは高すぎ、広範な探索に対する重大な障壁となっている
– 本論文では、CLIPトレーニングに逆スケーリング則が存在することが驚くべき発見であることを示し、使用される画像/テキストエンコーダが大きくなるほど、トレーニングで適用できる画像/テキストトークンのシーケンス長が短くなることを示す
– さらに、画像/テキストトークン長を短縮する戦略がこのスケーリング則の品質を決定する上で重要であることを紹介する
– この発見により、学術的なリソースを使用してもCLIPを成功裏にトレーニングできるようになり、たとえばA100 8GPUサーバーでは、~2日間でゼロショットトップ1 ImageNet精度が63.2%、~3日間では67.8%、~4日間で69.3%を達成することができた
– CLIPに関連する計算上の障壁を減らすことにより、特に学術界からのさらなる研究を刺激することを望んでいる。また、コードはhttps://github.com/UCSC-VLAA/CLIPAで入手可能である。
要約(オリジナル)
CLIP, the first foundation model that connects images and text, has enabled many recent breakthroughs in computer vision. However, its associated training cost is prohibitively high, imposing a significant barrier to its widespread exploration. In this paper, we present a surprising finding that there exists an inverse scaling law for CLIP training, whereby the larger the image/text encoders used, the shorter the sequence length of image/text tokens that can be applied in training. Moreover, we showcase that the strategy for reducing image/text token length plays a crucial role in determining the quality of this scaling law. As a result of this finding, we are able to successfully train CLIP even by using academic resources. For example, on an A100 eight-GPU server, our CLIP models achieve zero-shot top-1 ImageNet accuracies of 63.2% in ~2 days, 67.8% in ~3 days, and 69.3% in ~4 days. By reducing the computation barrier associated with CLIP, we hope to inspire more research in this field, particularly from academics. Our code is available at https://github.com/UCSC-VLAA/CLIPA.
arxiv情報
著者 | Xianhang Li,Zeyu Wang,Cihang Xie |
発行日 | 2023-05-11 17:56:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI