Superposition Yields Robust Neural Scaling

要約

今日の大規模な言語モデル(LLMS)の成功は、より大きなモデルのパフォーマンスが向上するという観察に依存します。
ただし、この神経スケーリング法の起源 – モデルサイズのパワー法則として損失が減少するという発見 – は不明のままです。
2つの経験的原則から始まります。LLMは、モデルの寸法(幅)よりも多くのものを表しています(つまり、表現は重ねられています)。
重ね合わせが弱い場合、最も頻繁な機能のみが干渉なしに表されることを意味する場合、モデルサイズの損失のスケーリングは、基礎となる特徴頻度に依存することがわかりました。
特徴の頻度が電力法則に従う場合、損失もそうです。
対照的に、すべての機能が表現されているが互いに重複する強力な重ね合わせでは、損失は、広範囲の特徴周波数分布にわたってモデルのディメンションに反比例します。
この堅牢なスケーリング動作は幾何学的に説明されています。より多くのベクトルがより低い寸法空間に詰め込まれている場合、ベクトル間の干渉(四角のオーバーラップ)は、その次元と反比例します。
次に、オープンソースのLLMの4つのファミリーを分析し、それらが強力な重ね合わせを示し、おもちゃモデルの予測に定量的に一致することがわかりました。
チンチラのスケーリング法も結果に同意することが判明しました。
表現の重ね合わせは、観察された神経スケーリング法則の根底にある重要なメカニズムであると結論付けています。
これらの洞察は、新しいトレーニング戦略とモデルアーキテクチャを刺激して、より少ない計算とパラメーターが少ないパフォーマンスを向上させると予想しています。

要約(オリジナル)

The success of today’s large language models (LLMs) depends on the observation that larger models perform better. However, the origin of this neural scaling law — the finding that loss decreases as a power law with model size — remains unclear. Starting from two empirical principles — that LLMs represent more things than the model dimensions (widths) they have (i.e., representations are superposed), and that words or concepts in language occur with varying frequencies — we constructed a toy model to study the loss scaling with model size. We found that when superposition is weak, meaning only the most frequent features are represented without interference, the scaling of loss with model size depends on the underlying feature frequency; if feature frequencies follow a power law, so does the loss. In contrast, under strong superposition, where all features are represented but overlap with each other, the loss becomes inversely proportional to the model dimension across a wide range of feature frequency distributions. This robust scaling behavior is explained geometrically: when many more vectors are packed into a lower dimensional space, the interference (squared overlaps) between vectors scales inversely with that dimension. We then analyzed four families of open-sourced LLMs and found that they exhibit strong superposition and quantitatively match the predictions of our toy model. The Chinchilla scaling law turned out to also agree with our results. We conclude that representation superposition is an important mechanism underlying the observed neural scaling laws. We anticipate that these insights will inspire new training strategies and model architectures to achieve better performance with less computation and fewer parameters.

arxiv情報

著者 Yizhou liu,Ziming Liu,Jeff Gore
発行日 2025-05-15 16:18:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク