ConvNets Match Vision Transformers at Scale

要約

多くの研究者は、ConvNet は小規模または中程度のサイズのデータ​​セットでは良好なパフォーマンスを発揮しますが、Web スケールのデータセットにアクセスできる場合には Vision Transformer と競合できないと考えています。
私たちは、基礎モデルのトレーニングによく使用される画像の大規模なラベル付きデータセットである JFT-4B で事前トレーニングされたパフォーマンスの高い ConvNet アーキテクチャを評価することで、この考えに異議を唱えます。
0.4k ~ 110k の TPU-v4 コア コンピューティング時間の事前トレーニング コンピューティング バジェットを検討し、NFNet モデル ファミリから深さと幅が増加する一連のネットワークをトレーニングします。
ホールドアウト損失と計算バジェットの間には対対対数スケーリング則が観察されます。
ImageNet で微調整した後、NFNet は、報告されている Vision Transformers のパフォーマンスと同等のコンピューティング バジェットを一致させます。
当社の最強の微調整モデルは、トップ 1 の精度 90.4% を達成します。

要約(オリジナル)

Many researchers believe that ConvNets perform well on small or moderately sized datasets, but are not competitive with Vision Transformers when given access to datasets on the web-scale. We challenge this belief by evaluating a performant ConvNet architecture pre-trained on JFT-4B, a large labelled dataset of images often used for training foundation models. We consider pre-training compute budgets between 0.4k and 110k TPU-v4 core compute hours, and train a series of networks of increasing depth and width from the NFNet model family. We observe a log-log scaling law between held out loss and compute budget. After fine-tuning on ImageNet, NFNets match the reported performance of Vision Transformers with comparable compute budgets. Our strongest fine-tuned model achieves a Top-1 accuracy of 90.4%.

arxiv情報

著者 Samuel L. Smith,Andrew Brock,Leonard Berrada,Soham De
発行日 2023-10-25 16:52:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.NE パーマリンク