要約
大規模な言語モデル(LLM)は、前例のない豊富なスケーリング動作を示します。
物理学では、スケーリング挙動は、相転移、重要な現象、および野外理論に密接に関連しています。
LLMSの位相遷移現象を調査するために、トランスアーキテクチャを$ o(n)$モデルとして再定式化しました。
私たちの研究では、それぞれテキスト生成で使用される温度とモデルのパラメーターサイズに対応する2つの異なる位相遷移が明らかになりました。
最初のフェーズ遷移により、モデルの内部次元を推定することができますが、2番目のフェーズ遷移は\ TextIT {Highter Depth}であり、新しい機能の出現を示します。
アプリケーションとして、$ o(n)$モデルのエネルギーを使用して、LLMのパラメーターがトレーニングデータを学習するのに十分かどうかを評価できます。
要約(オリジナル)
Large language models (LLMs) exhibit unprecedentedly rich scaling behaviors. In physics, scaling behavior is closely related to phase transitions, critical phenomena, and field theory. To investigate the phase transition phenomena in LLMs, we reformulated the Transformer architecture as an $O(N)$ model. Our study reveals two distinct phase transitions corresponding to the temperature used in text generation and the model’s parameter size, respectively. The first phase transition enables us to estimate the internal dimension of the model, while the second phase transition is of \textit{higher-depth} and signals the emergence of new capabilities. As an application, the energy of the $O(N)$ model can be used to evaluate whether an LLM’s parameters are sufficient to learn the training data.
arxiv情報
著者 | Youran Sun,Babak Haghighat |
発行日 | 2025-01-27 17:36:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google