Scaling Law with Learning Rate Annealing

要約

ニューラル言語モデルのクロスエントロピー損失曲線は、訓練ステップ全体にわたって学習率 (LR) アニーリングを伴うスケーリング則に従うことが経験的にわかります。 $$L(s) = L_0 + A\cdot S_1^{-\alpha} –
C\cdot S_2,$$ ここで、$L(s)$ はステップ $s$ での検証損失、$S_1$ は LR 曲線の下の領域、$S_2$ は LR アニーリング領域、$L_0$, $
A$、$C$、$\alpha$ は定数パラメータです。
この定式化では、(1) データ サイズに対するべき乗則のスケーリング、および (2) LR アニーリング中の追加の損失削減という 2 つの要素が考慮されます。
したがって、この定式化では、トレーニング終了時の単一の損失点ではなく、各ステップでの完全な損失曲線を記述することができます。
LR アニーリングでスケーリング則を適用し、1 つまたは 2 つのトレーニング カーブだけをフィッティングすることで、あらゆる学習率スケジューラ (LRS) の任意のステップでの損失を正確に予測できます。
このアプローチにより、スケーリング則を定式化する際の計算コストが大幅に削減されると同時に、トレーニング ダイナミクスの精度と表現力が向上します。
広範な実験により、私たちの発見がさまざまなハイパーパラメータとモデルアーキテクチャに当てはまり、私たちの方程式がモデルサイズのスケーリング効果にまで拡張できることが実証されました。
さらに、私たちの定式化は、多くの以前の研究、特にLRスケジュールとアニーリングに焦点を当てた研究で観察された経験的結果に対する正確な理論的検証と説明を提供します。
私たちは、この研究が、スケーリング法則を大幅に民主化しながら、LLM トレーニングのダイナミクスの理解を強化することを約束し、研究者がさらなる LLM のためのトレーニング戦略 (例: クリティカル LRS) を洗練する上で役立つと信じています。

要約(オリジナル)

We find that the cross-entropy loss curves of neural language models empirically adhere to a scaling law with learning rate (LR) annealing over training steps: $$L(s) = L_0 + A\cdot S_1^{-\alpha} – C\cdot S_2,$$ where $L(s)$ is the validation loss at step $s$, $S_1$ is the area under the LR curve, $S_2$ is the LR annealing area, and $L_0$, $A$, $C$, $\alpha$ are constant parameters. This formulation takes into account two factors: (1) power-law scaling over data size, and (2) the additional loss reduction during LR annealing. Therefore, this formulation can describe the full loss curve at each step, rather than the single loss point at the end of training. Applying the scaling law with LR annealing and fitting only one or two training curves, we can accurately predict the loss at any given step across any learning rate scheduler (LRS). This approach significantly reduces computational cost in formulating scaling laws while providing more accuracy and expressiveness for training dynamics. Extensive experiments demonstrate that our findings hold across a range of hyper-parameters and model architectures, and our equation can extend to scaling effect of model sizes. Moreover, our formulation provides accurate theoretical verification and explanation for empirical results observed in numerous previous studies, particularly those focusing on LR schedule and annealing. We believe that this work is promising to enhance the understanding of LLM training dynamics while greatly democratizing scaling laws, and it can guide researchers in refining training strategies (e.g. critical LRS) for further LLMs.

arxiv情報

著者 Howe Tissue,Venus Wang,Lu Wang
発行日 2024-10-24 17:56:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク