Can We Scale Transformers to Predict Parameters of Diverse ImageNet Models?

要約

大規模なデータセットに対するニューラルネットワークの事前学習は、機械学習の基礎となりつつあるが、大規模なリソースを持つ少数のコミュニティしか手が出せないのが現状である。我々は、プレトレーニングの民主化という野心的な目標を掲げている。この目標に向けて、我々は、他のニューラルネットワークの高品質なImageNetパラメータを予測することができる単一のニューラルネットワークを訓練し、リリースします。予測されたパラメータを初期化に用いることで、PyTorchで利用可能な様々なImageNetモデルの学習を促進することができます。また、他のデータセットに移植した場合、予測されたパラメータで初期化されたモデルは、より速く収束し、最終的に競争力のある性能に到達します。

要約(オリジナル)

Pretraining a neural network on a large dataset is becoming a cornerstone in machine learning that is within the reach of only a few communities with large-resources. We aim at an ambitious goal of democratizing pretraining. Towards that goal, we train and release a single neural network that can predict high quality ImageNet parameters of other neural networks. By using predicted parameters for initialization we are able to boost training of diverse ImageNet models available in PyTorch. When transferred to other datasets, models initialized with predicted parameters also converge faster and reach competitive final performance.

arxiv情報

著者 Boris Knyazev,Doha Hwang,Simon Lacoste-Julien
発行日 2023-03-07 18:56:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML パーマリンク