要約
ニューラル・スケーリング則(NSL)とは、モデルの性能がスケールとともに向上する現象を指す。SharmaとKaplanは近似理論を用いてNSLを解析し、MSE損失は$N^{-α}$, $α=4/d$として減衰すると予測した。彼らの理論はいくつかのケース(例えばReLUネットワーク)ではうまくいくが、単純な1次元問題$y=x^2$では、彼らの予測($alpha=4$)とは異なるスケーリング則($alpha=1$)が現れることが意外にわかった。我々はニューラルネットワークを開き、新しいスケーリング則が抽選券のアンサンブルに由来することを発見した:平均的に広いネットワークは、出力の分散を減らすためにアンサンブルされる「抽選券」をより多く持っている。我々は、単一のニューラルネットワークを統計的に研究するだけでなく、メカニズム的に解釈することで、アンサンブルのメカニズムを支持した。我々は、$N^{-1}$スケーリング則を宝くじの「中心極限定理」に帰着させる。最後に、大規模言語モデルや統計物理学タイプの学習理論への潜在的な影響について議論する。
要約(オリジナル)
Neural scaling laws (NSL) refer to the phenomenon where model performance improves with scale. Sharma & Kaplan analyzed NSL using approximation theory and predict that MSE losses decay as $N^{-\alpha}$, $\alpha=4/d$, where $N$ is the number of model parameters, and $d$ is the intrinsic input dimension. Although their theory works well for some cases (e.g., ReLU networks), we surprisingly find that a simple 1D problem $y=x^2$ manifests a different scaling law ($\alpha=1$) from their predictions ($\alpha=4$). We opened the neural networks and found that the new scaling law originates from lottery ticket ensembling: a wider network on average has more ‘lottery tickets’, which are ensembled to reduce the variance of outputs. We support the ensembling mechanism by mechanistically interpreting single neural networks, as well as studying them statistically. We attribute the $N^{-1}$ scaling law to the ‘central limit theorem’ of lottery tickets. Finally, we discuss its potential implications for large language models and statistical physics-type theories of learning.
arxiv情報
著者 | Ziming Liu,Max Tegmark |
発行日 | 2023-10-03 17:58:33+00:00 |
arxivサイト | arxiv_id(pdf) |