Scaling Law with Learning Rate Annealing

要約

ニューラル言語モデルのクロスエントロピー損失曲線は、トレーニング ステップ ($s$) にわたって学習率 (LR) アニーリングを行うスケーリング則に経験的に準拠していることがわかります。 $$L(s) = L_0 + A\cdot S_1^{
-\alpha} – C\cdot S_2$$ ここで、$S_1$ はフォワード領域、$S_2$ は学習率アニーリング領域です。
この定式化では、(1) 一般的なスケーリング則として定義されるフォワード スケーリング、および (2) LR アニーリングによってもたらされる追加の損失の低下という 2 つの要素が考慮されます。
したがって、この定式化では、トレーニング終了時の単一の損失点ではなく、各ステップでの完全な損失曲線を記述することができます。
LR アニーリングでスケーリング則を適用し、1 つまたは 2 つのトレーニング曲線のみをフィッティングすることで、任意のステップおよび学習率スケジューラー (LRS) 全体での言語モデルのトレーニングの損失を正確に予測できます。
さらに、この方程式はトレーニング プロセス中のダイナミクスを正確に記述しており、これまでの研究、特に LR スケジュールと LR アニーリングに焦点を当てた研究の多数の実験結果に対する理論的な検証と説明を提供します。
得られた洞察は、研究者が方程式を使用した予測によって事前に重要な LRS を選択するためのガイドとしても機能します。
最も重要なことは、完全なトレーニング カーブ内のすべてのポイントが方程式に従うため、チンチラのスケーリング則で必要な計算コストの 1\% 未満しか費やさずに、学習率スケジューラの任意のステップで正確な損失予測を達成できることです。
言語モデリングの損失に適合します。
このアプローチにより、大規模な言語モデルの開発におけるスケーリング則のフィッティングと予測が非常に民主化されます。

要約(オリジナル)

We find that the cross-entropy loss curves of neural language models empirically adhere to a scaling law with learning rate (LR) annealing over training steps ($s$): $$L(s) = L_0 + A\cdot S_1^{-\alpha} – C\cdot S_2$$ Where $S_1$ is forward area and $S_2$ is learning rate annealing area. This formulation takes into account two factors: (1) The forward scaling defined as typical scaling law, and (2) the additional loss drop brought by LR annealing. Therefore, this formulation can describe the full loss curve at each step, rather than the single loss point at the end of training. Applying the scaling law with LR annealing and fitting only one or two training curves, we can accurately predict the loss of language model training at any given step and across any learning rate scheduler (LRS). Furthermore, this equation accurately describes the dynamics during training process, and provides a theoretical verification and explanation for numerous experimental findings of previous studies, particularly those focusing on LR schedule and LR annealing. The resulting insights, also serve as a guide for researchers to select critical LRS in advance by prediction using our equation. Most significantly, since all the points in a full training curve follow the equation, we can achieve accurate loss prediction at any given step across any learning rate scheduler, while expending less than 1\% of the computational cost required by the chinchilla scaling law to fit language modeling loss. This approach extremely democratizes scaling law fitting and predicting in developing large language models.

arxiv情報

著者 Howe Tissue,Venus Wang,Lu Wang
発行日 2024-08-20 17:30:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク