要約
トレーニングセットのサイズ、モデルのサイズ、またはその両方の累乗としてエラーが減少する、広く観察されているニューラルスケーリングの法則により、深層学習のパフォーマンスが大幅に向上しました。
ただし、スケーリングだけによるこれらの改善には、計算とエネルギーにかなりのコストがかかります。
ここでは、データセットサイズによるエラーのスケーリングに焦点を当て、理論と実践の両方で、べき乗則のスケーリングを超えて、順序をランク付けする高品質のデータプルーニングメトリックにアクセスできる場合に、指数スケーリングに減らす方法を示します。
プルーニングされたデータセットサイズを実現するには、どのトレーニング例を破棄する必要がありますか。
次に、剪定されたデータセットサイズを使用してこの新しい指数スケーリング予測を実験的にテストし、CIFAR-10、SVHN、およびImageNetでトレーニングされたResNetでべき乗則のスケーリングパフォーマンスよりも優れていることを実際に観察します。
高品質の剪定指標を見つけることの重要性を考慮して、ImageNetで10の異なるデータ剪定指標の最初の大規模なベンチマーク調査を実行します。
ほとんどの既存の高性能メトリックはImageNetにあまり適合していませんが、最良のものは計算集約的であり、すべての画像にラベルが必要です。
そのため、最高の教師あり指標に匹敵するパフォーマンスを示す、新しいシンプルで安価でスケーラブルな自己教師あり剪定指標を開発しました。
全体として、私たちの仕事は、優れたデータプルーニングメトリックの発見が、大幅に改善されたニューラルスケーリング法則への実行可能なパスを提供し、それによって現代の深層学習のリソースコストを削減する可能性があることを示唆しています。
要約(オリジナル)
Widely observed neural scaling laws, in which error falls off as a power of the training set size, model size, or both, have driven substantial performance improvements in deep learning. However, these improvements through scaling alone require considerable costs in compute and energy. Here we focus on the scaling of error with dataset size and show how both in theory and practice we can break beyond power law scaling and reduce it to exponential scaling instead if we have access to a high-quality data pruning metric that ranks the order in which training examples should be discarded to achieve any pruned dataset size. We then test this new exponential scaling prediction with pruned dataset size empirically, and indeed observe better than power law scaling performance on ResNets trained on CIFAR-10, SVHN, and ImageNet. Given the importance of finding high-quality pruning metrics, we perform the first large-scale benchmarking study of ten different data pruning metrics on ImageNet. We find most existing high performing metrics scale poorly to ImageNet, while the best are computationally intensive and require labels for every image. We therefore developed a new simple, cheap and scalable self-supervised pruning metric that demonstrates comparable performance to the best supervised metrics. Overall, our work suggests that the discovery of good data-pruning metrics may provide a viable path forward to substantially improved neural scaling laws, thereby reducing the resource costs of modern deep learning.
arxiv情報
著者 | Ben Sorscher,Robert Geirhos,Shashank Shekhar,Surya Ganguli,Ari S. Morcos |
発行日 | 2022-06-29 09:20:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google