要約
最終モデルのパフォーマンスを反映する初期段階のメトリクスを明らかにすることは、大規模な事前トレーニングの中核となる原則の 1 つです。
既存のスケーリング則は、トレーニング前の損失とトレーニングのフロップの間のべき乗則の相関関係を示しており、これは大規模な言語モデルの現在のトレーニング状態を示す重要な指標として機能します。
ただし、この原則はトレーニング データのモデルの圧縮特性にのみ焦点を当てているため、下流タスクの能力向上との不一致が生じます。
いくつかのフォローアップ作業では、スケーリング則をより複雑なメトリクス (ハイパーパラメータなど) に拡張しようとしましたが、事前トレーニング中のさまざまな機能間の動的な違いの包括的な分析がまだ不足していました。
前述の制限に対処するために、このペーパーでは、さまざまな事前トレーニング中間チェックポイントでのモデルの機能を包括的に比較します。
この分析を通じて、特定の下流メトリクスが、最大 670 億パラメータの異なるサイズのモデルにわたって同様のトレーニング ダイナミクスを示すことを確認しました。
私たちの主要な調査結果に加えて、Amber と OpenLLaMA を再現し、それらの中間チェックポイントをリリースしました。
この取り組みは、研究コミュニティに貴重なリソースを提供し、オープンソース研究者による LLM 事前トレーニングの検証と探索を促進します。
さらに、さまざまなモデルや機能のパフォーマンス比較、さまざまなトレーニング フェーズの主要な指標の指導など、実証的な要約も提供します。
これらの発見に基づいて、最適化状態を評価するためのよりユーザーフレンドリーな戦略を提供し、安定した事前トレーニング プロセスを確立するためのガイダンスを提供します。
要約(オリジナル)
Uncovering early-stage metrics that reflect final model performance is one core principle for large-scale pretraining. The existing scaling law demonstrates the power-law correlation between pretraining loss and training flops, which serves as an important indicator of the current training state for large language models. However, this principle only focuses on the model’s compression properties on the training data, resulting in an inconsistency with the ability improvements on the downstream tasks. Some follow-up works attempted to extend the scaling-law to more complex metrics (such as hyperparameters), but still lacked a comprehensive analysis of the dynamic differences among various capabilities during pretraining. To address the aforementioned limitations, this paper undertakes a comprehensive comparison of model capabilities at various pretraining intermediate checkpoints. Through this analysis, we confirm that specific downstream metrics exhibit similar training dynamics across models of different sizes, up to 67 billion parameters. In addition to our core findings, we’ve reproduced Amber and OpenLLaMA, releasing their intermediate checkpoints. This initiative offers valuable resources to the research community and facilitates the verification and exploration of LLM pretraining by open-source researchers. Besides, we provide empirical summaries, including performance comparisons of different models and capabilities, and tuition of key metrics for different training phases. Based on these findings, we provide a more user-friendly strategy for evaluating the optimization state, offering guidance for establishing a stable pretraining process.
arxiv情報
著者 | Chen Yang,Junzhuo Li,Xinyao Niu,Xinrun Du,Songyang Gao,Haoran Zhang,Zhaoliang Chen,Xingwei Qu,Ruibin Yuan,Yizhi Li,Jiaheng Liu,Stephen W. Huang,Shawn Yue,Ge Zhang |
発行日 | 2024-11-06 12:02:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google