要約
トレーニングセットのサイズ、モデルのサイズ、またはその両方の累乗として誤差が減少するという、広く観察されているニューラル・スケーリング則は、ディープラーニングにおける大幅な性能向上を牽引してきました。しかし、スケーリングのみによるこれらの改善には、計算とエネルギーに相当なコストが必要です。ここでは、データセットサイズに伴う誤差のスケーリングに着目し、任意の刈り込みデータセットサイズを達成するために学習例を破棄すべき順序をランク付けする高品質のデータ刈り込みメトリックにアクセスできる場合、理論的にも実践的にも、電力則スケーリングを超え、代わりに指数スケーリングに低減できることを示す。そして、この新しい指数関数的スケーリング予測とプルーニングされたデータセットサイズを経験的に検証し、実際にCIFAR-10, SVHN, ImageNetで学習したResNetsでべき乗則より良いスケーリング性能を観測しました。高品質なプルーニングメトリクスを見つけることの重要性を考慮し、我々はImageNet上で10種類のデータプルーニングメトリクスに関する初の大規模ベンチマーク研究を実施した。その結果、既存の高性能なメトリクスはImageNetに対して拡張性が低く、高性能なメトリクスは計算量が多く、全ての画像に対してラベルを必要とすることが分かった。そこで我々は、シンプルで安価、かつスケーラブルな自己教師付き刈り込み手法を新たに開発し、最良の教師付き手法に匹敵する性能を実証した。全体として、我々の研究は、優れたデータ刈り込みメトリックの発見が、実質的に改善されたニューラル・スケーリング法則への実行可能な道筋を提供し、それによって現代の深層学習のリソースコストを削減する可能性があることを示唆しています。
要約(オリジナル)
Widely observed neural scaling laws, in which error falls off as a power of the training set size, model size, or both, have driven substantial performance improvements in deep learning. However, these improvements through scaling alone require considerable costs in compute and energy. Here we focus on the scaling of error with dataset size and show how both in theory and practice we can break beyond power law scaling and reduce it to exponential scaling instead if we have access to a high-quality data pruning metric that ranks the order in which training examples should be discarded to achieve any pruned dataset size. We then test this new exponential scaling prediction with pruned dataset size empirically, and indeed observe better than power law scaling performance on ResNets trained on CIFAR-10, SVHN, and ImageNet. Given the importance of finding high-quality pruning metrics, we perform the first large-scale benchmarking study of ten different data pruning metrics on ImageNet. We find most existing high performing metrics scale poorly to ImageNet, while the best are computationally intensive and require labels for every image. We therefore developed a new simple, cheap and scalable self-supervised pruning metric that demonstrates comparable performance to the best supervised metrics. Overall, our work suggests that the discovery of good data-pruning metrics may provide a viable path forward to substantially improved neural scaling laws, thereby reducing the resource costs of modern deep learning.
arxiv情報
著者 | Ben Sorscher,Robert Geirhos,Shashank Shekhar,Surya Ganguli,Ari S. Morcos |
発行日 | 2022-08-03 15:43:22+00:00 |
arxivサイト | arxiv_id(pdf) |