Scaling Laws in Linear Regression: Compute, Parameters, and Data

要約

経験的に、大規模な深層学習モデルはニューラル スケーリング則を満たすことがよくあります。つまり、モデル サイズとデータ サイズが大きくなるにつれて、トレーニングされたモデルのテスト誤差が多項式に改善されます。
ただし、従来の通念では、テスト誤差は近似誤差、バイアス誤差、分散誤差で構成され、分散誤差はモデルのサイズに応じて増加することが示唆されています。
これは、モデル サイズが単調に増加するとパフォーマンスが向上すると予測するニューラル スケーリング則の一般的な形式と一致しません。
無限次元の線形回帰セットアップにおけるスケーリング則の理論を研究します。
具体的には、$M$ パラメータを持つモデルを、スケッチされた共変量の線形関数として考慮します。
モデルは、$N$ データを使用してワンパス確率的勾配降下法 (SGD) によってトレーニングされます。
最適なパラメーターが事前ガウスを満たし、データ共分散行列が次数 $a>1$ のべき乗則スペクトルを持つと仮定すると、テスト誤差の削減可能な部分は $\Theta(M^{-(a-1
)} + N^{-(a-1)/a})$。
$M$ とともに増加する分散誤差は、SGD の暗黙的な正則化により他の誤差によって支配され、境界から消えます。
私たちの理論は経験的なニューラル スケーリングの法則と一致しており、数値シミュレーションによって検証されています。

要約(オリジナル)

Empirically, large-scale deep learning models often satisfy a neural scaling law: the test error of the trained model improves polynomially as the model size and data size grow. However, conventional wisdom suggests the test error consists of approximation, bias, and variance errors, where the variance error increases with model size. This disagrees with the general form of neural scaling laws, which predict that increasing model size monotonically improves performance. We study the theory of scaling laws in an infinite dimensional linear regression setup. Specifically, we consider a model with $M$ parameters as a linear function of sketched covariates. The model is trained by one-pass stochastic gradient descent (SGD) using $N$ data. Assuming the optimal parameter satisfies a Gaussian prior and the data covariance matrix has a power-law spectrum of degree $a>1$, we show that the reducible part of the test error is $\Theta(M^{-(a-1)} + N^{-(a-1)/a})$. The variance error, which increases with $M$, is dominated by the other errors due to the implicit regularization of SGD, thus disappearing from the bound. Our theory is consistent with the empirical neural scaling laws and verified by numerical simulation.

arxiv情報

著者 Licong Lin,Jingfeng Wu,Sham M. Kakade,Peter L. Bartlett,Jason D. Lee
発行日 2024-06-12 17:53:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.ST, stat.ML, stat.TH パーマリンク