The Quantization Model of Neural Scaling

要約

ニューラル スケーリング則の $\textit{Quantization Model}$ を提案し、観測されたモデルとデータ サイズによる損失の累乗法則の低下と、スケールによる新しい機能の突然の出現の両方を説明します。
このモデルは、私たちが $\textit{Quantization Hypothesis}$ と呼んでいるものから導き出されたもので、学習したネットワーク機能が個別のチャンク ($\textit{quanta}$) に量子化されます。
量子が使用頻度の減少順に学習されると、使用頻度のべき乗法則が観測された損失のべき乗法則スケーリングを説明することを示します。
おもちゃのデータセットでこの予測を検証し、大規模な言語モデルのスケーリング曲線がどのように分解されるかを調べます。
言語モデルの内部構造を使用して、多様なモデル機能 (量子) を自動検出し、自然テキストの予測における対応する下位問題の分布が、理論から予測されたニューラル スケーリング指数から予測されたべき法則と互換性があるという暫定的な証拠を見つけます。

要約(オリジナル)

We propose the $\textit{Quantization Model}$ of neural scaling laws, explaining both the observed power law dropoff of loss with model and data size, and also the sudden emergence of new capabilities with scale. We derive this model from what we call the $\textit{Quantization Hypothesis}$, where learned network capabilities are quantized into discrete chunks ($\textit{quanta}$). We show that when quanta are learned in order of decreasing use frequency, then a power law in use frequencies explains observed power law scaling of loss. We validate this prediction on toy datasets, then study how scaling curves decompose for large language models. Using language model internals, we auto-discover diverse model capabilities (quanta) and find tentative evidence that the distribution over corresponding subproblems in the prediction of natural text is compatible with the power law predicted from the neural scaling exponent as predicted from our theory.

arxiv情報

著者 Eric J. Michaud,Ziming Liu,Uzay Girit,Max Tegmark
発行日 2023-03-23 17:58:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.LG パーマリンク