要約
タイトル:ゼロショット転移学習のための合成スケーリング
要約:
– BASIC(合成スケーリング手法)を提案し、ラベル付けされたImageNetの例から学習することなく、ILSVRC-2012の評価セットで85.7%のトップ1精度を達成しました。
– BASICモデルは、最良の公表された同様のモデルであるCLIPとALIGNを9.3%上回る正確性を示しています。
– BASICモデルは、ロバストネスベンチマークでも大幅な改善を示しました。たとえば、ImageNet-{A、R、V2、Sketch}およびObjectNetなどの自然分布シフトのある5つのテストセットで、モデルはオリジナルのImageNet精度からわずかに下がるだけで84.3%のトップ1平均精度を達成しています。
– BASICのスケーリング規則には2つの主な課題があります。1つ目は、アクセラレータ(GPUやTPUなど)の限られたメモリです。このメモリ制限を克服するために、勾配チェックポイントとモデル並列処理の2つの単純な方法を提案しています。
– 2つ目の課題は、データセットサイズとモデルサイズを増やすことが、BASICなどの深層学習モデルのパフォーマンスを改善するための実質的な方法となっている一方、大きな対比的バッチサイズの画像テキストモデルに対する効果がよく理解されていないことです。大規模な対比的バッチサイズの利点を明らかにするために、BASICのような画像テキストモデルに対して、大きな対比的バッチサイズは一般化のギャップを小さくすることにつながることを示す理論的枠組みを開発しました。
要約(オリジナル)
We present a combined scaling method – named BASIC – that achieves 85.7% top-1 accuracy on the ImageNet ILSVRC-2012 validation set without learning from any labeled ImageNet example. This accuracy surpasses best published similar models – CLIP and ALIGN – by 9.3%. Our BASIC model also shows significant improvements in robustness benchmarks. For instance, on 5 test sets with natural distribution shifts such as ImageNet-{A,R,V2,Sketch} and ObjectNet, our model achieves 84.3% top-1 average accuracy, only a small drop from its original ImageNet accuracy. To achieve these results, we scale up the contrastive learning framework of CLIP and ALIGN in three dimensions: data size, model size, and batch size. Our dataset has 6.6B noisy image-text pairs, which is 4x larger than ALIGN, and 16x larger than CLIP. Our largest model has 3B weights, which is 3.75x larger in parameters and 8x larger in FLOPs than ALIGN and CLIP. Finally, our batch size is 65536 which is 2x more than CLIP and 4x more than ALIGN. We encountered two main challenges with the scaling rules of BASIC. First, the main challenge with implementing the combined scaling rules of BASIC is the limited memory of accelerators, such as GPUs and TPUs. To overcome the memory limit, we propose two simple methods which make use of gradient checkpointing and model parallelism. Second, while increasing the dataset size and the model size has been the defacto method to improve the performance of deep learning models like BASIC, the effect of a large contrastive batch size on such contrastive-trained image-text models is not well-understood. To shed light on the benefits of large contrastive batch sizes, we develop a theoretical framework which shows that larger contrastive batch sizes lead to smaller generalization gaps for image-text models such as BASIC.
arxiv情報
著者 | Hieu Pham,Zihang Dai,Golnaz Ghiasi,Kenji Kawaguchi,Hanxiao Liu,Adams Wei Yu,Jiahui Yu,Yi-Ting Chen,Minh-Thang Luong,Yonghui Wu,Mingxing Tan,Quoc V. Le |
発行日 | 2023-04-12 08:26:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI