要約
多くの研究者は、ConvNet は小規模または中程度のサイズのデータセットでは良好なパフォーマンスを発揮しますが、Web スケールのデータセットにアクセスできる場合には Vision Transformer と競合できないと考えています。
私たちは、基礎モデルのトレーニングによく使用される画像の大規模なラベル付きデータセットである JFT-4B で事前トレーニングされたパフォーマンスの高い ConvNet アーキテクチャを評価することで、この考えに異議を唱えます。
0.4k ~ 110k の TPU-v4 コア コンピューティング時間の事前トレーニング コンピューティング バジェットを検討し、NFNet モデル ファミリから深さと幅が増加する一連のネットワークをトレーニングします。
ホールドアウト損失と計算バジェットの間には対対対数スケーリング則が観察されます。
ImageNet で微調整した後、NFNet は、報告されている Vision Transformers のパフォーマンスと同等のコンピューティング バジェットを一致させます。
当社の最強の微調整モデルは、トップ 1 の精度 90.4% を達成します。
要約(オリジナル)
Many researchers believe that ConvNets perform well on small or moderately sized datasets, but are not competitive with Vision Transformers when given access to datasets on the web-scale. We challenge this belief by evaluating a performant ConvNet architecture pre-trained on JFT-4B, a large labelled dataset of images often used for training foundation models. We consider pre-training compute budgets between 0.4k and 110k TPU-v4 core compute hours, and train a series of networks of increasing depth and width from the NFNet model family. We observe a log-log scaling law between held out loss and compute budget. After fine-tuning on ImageNet, NFNets match the reported performance of Vision Transformers with comparable compute budgets. Our strongest fine-tuned model achieves a Top-1 accuracy of 90.4%.
arxiv情報
著者 | Samuel L. Smith,Andrew Brock,Leonard Berrada,Soham De |
発行日 | 2023-10-25 16:52:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google