要約
ニューラル ネットワークのサイズは拡大し続けますが、データセットは拡大しない可能性があるため、どの程度のパフォーマンス向上が期待できるかを理解することが重要です。つまり、ネットワークのサイズを拡大することとデータ量を拡大することのどちらがより重要でしょうか?
したがって、ネットワークのサイズとデータ量に応じてテストエラーがどのように変化するかを特徴付けるニューラルネットワークのスケーリング則は、ますます重要になっています。
ただし、既存のスケーリング則は、限られた領域でのみ適用できることが多く、二重降下などのよく知られた現象が組み込まれていない、または予測されていないことがよくあります。
ここでは、モデル サイズ、トレーニング時間、データ量という 3 つの要素がどのように相互作用してディープ ニューラル ネットワークのパフォーマンスを決定するかについて、新しい理論的特徴付けを示します。
まず、ニューラル ネットワークのサイズを拡大することと、それに比例してトレーニング時間を増やすこととの間の理論的および経験的な同等性を確立します。
スケール時間の等価性は、大規模なモデルが短期間でトレーニングされる現在の慣行に疑問を投げかけ、長期間にわたってトレーニングされた小規模なモデルがその有効性に匹敵する可能性があることを示唆しています。
また、拡張エポック向けにトレーニングされた小規模ネットワークから大規模ネットワークのパフォーマンスを予測したり、その逆の新しい方法にもつながります。
次に、スケール時間の等価性と二重降下の線形モデル解析を組み合わせて、統一された理論的なスケーリング則を取得します。これは、ビジョン ベンチマークとネットワーク アーキテクチャにわたる実験で確認されます。
これらの法則は、これまで説明されていなかったいくつかの現象を説明します。たとえば、大規模なモデルで一般化するためのデータ要件の減少、オーバーパラメーター化されたモデルでのラベル ノイズに対する感度の向上、モデルのスケールを大きくしてもパフォーマンスが必ずしも向上しない場合などです。
私たちの発見はニューラル ネットワークの実際の展開に重要な意味を持ち、大規模なモデルのトレーニングと微調整へのよりアクセスしやすく効率的な道を提供します。
要約(オリジナル)
As neural networks continue to grow in size but datasets might not, it is vital to understand how much performance improvement can be expected: is it more important to scale network size or data volume? Thus, neural network scaling laws, which characterize how test error varies with network size and data volume, have become increasingly important. However, existing scaling laws are often applicable only in limited regimes and often do not incorporate or predict well-known phenomena such as double descent. Here, we present a novel theoretical characterization of how three factors — model size, training time, and data volume — interact to determine the performance of deep neural networks. We first establish a theoretical and empirical equivalence between scaling the size of a neural network and increasing its training time proportionally. Scale-time equivalence challenges the current practice, wherein large models are trained for small durations, and suggests that smaller models trained over extended periods could match their efficacy. It also leads to a novel method for predicting the performance of large-scale networks from small-scale networks trained for extended epochs, and vice versa. We next combine scale-time equivalence with a linear model analysis of double descent to obtain a unified theoretical scaling law, which we confirm with experiments across vision benchmarks and network architectures. These laws explain several previously unexplained phenomena: reduced data requirements for generalization in larger models, heightened sensitivity to label noise in overparameterized models, and instances where increasing model scale does not necessarily enhance performance. Our findings hold significant implications for the practical deployment of neural networks, offering a more accessible and efficient path to training and fine-tuning large models.
arxiv情報
著者 | Akhilan Boopathy,Ila Fiete |
発行日 | 2024-09-09 16:45:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google