要約
継続的なトレーニング(CPT)は、特定のダウンストリームタスクに強力な基礎モデルを適用するための一般的で効果的な方法となっています。
この作業では、大規模な言語モデルのCPTプロセス全体で学習ダイナミクスを探ります。
各トレーニングステップで一般的なドメインパフォーマンスがどのように進化するかに特に焦点を当て、検証損失を介してドメインのパフォーマンスが測定されます。
CPTの損失曲線は、ある曲線から別の隠された曲線への遷移を根本的に特徴付け、分布シフトと学習率アニーリングの効果を分離することで説明できることが観察されました。
2つの要因を組み合わせたCPTスケーリング法を導き出し、CPTの(継続的な)トレーニングステップおよび学習率(LR)での損失の予測を可能にします。
私たちの定式化は、損失の可能性、ピーク学習率、トレーニングステップ、リプレイ比などを含むCPTのいくつかの重要な要因を包括的に理解しています。さらに、私たちのアプローチは、一般的なパフォーマンスとドメイン固有のパフォーマンスのバランスをとるさまざまなCPT目標にトレーニングハイパーパラメーターをカスタマイズするために適応させることができます。
広範な実験は、私たちのスケーリング法がさまざまなCPTデータセットとトレーニングのハイパーパラメーターにわたって保持されていることを示しています。
要約(オリジナル)
Continual Pre-Training (CPT) has become a popular and effective method to apply strong foundation models to specific downstream tasks. In this work, we explore the learning dynamics throughout the CPT process for large language models. We specifically focus on how general and downstream domain performance evolves at each training step, with domain performance measured via validation losses. We have observed that the CPT loss curve fundamentally characterizes the transition from one curve to another hidden curve, and could be described by decoupling the effects of distribution shift and learning rate annealing. We derive a CPT scaling law that combines the two factors, enabling the prediction of loss at any (continual) training steps and across learning rate schedules (LRS) in CPT. Our formulation presents a comprehensive understanding of several critical factors in CPT, including loss potential, peak learning rate, training steps, replay ratio, etc. Moreover, our approach can be adapted to customize training hyper-parameters to different CPT goals such as balancing general and domain-specific performance. Extensive experiments demonstrate that our scaling law holds across various CPT datasets and training hyper-parameters.
arxiv情報
著者 | Xingjin Wang,Howe Tissue,Lu Wang,Linjing Li,Daniel Dajun Zeng |
発行日 | 2025-05-12 17:47:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google