要約
大規模な言語モデルの事前トレーニングは、モデル アーキテクチャ、データ品質、トレーニングの継続性、ハードウェアの制約などの複数の要因の影響を受ける複雑な作業です。
このペーパーでは、完全にオープンソースで 17 億パラメータの LLaMa ベースのモデルである DMaS-LLaMa-Lite を、慎重に厳選された約 200 億トークンのデータでトレーニングした経験から得られた洞察を共有します。
トレーニングの軌跡全体を記録し、進化する検証損失レベルと下流のベンチマークが、支離滅裂なテキストから流暢で文脈に基づいた出力への移行をどのように反映するかを文書化します。
事前トレーニングを超えて、私たちは分析を拡張して、命令調整に焦点を当てたトレーニング後のフェーズを含めます。そこでは、より状況に応じてユーザーに合わせた応答を生成するためにモデルが改良されました。
チェックポイントから再開するときにオプティマイザーの状態を復元することの重要性や、ハードウェアの変更がトレーニングの安定性やスループットに与える影響など、実践的な考慮事項に焦点を当てます。
定性的評価ではモデルの改善を直感的に理解できますが、私たちの分析はさまざまなパフォーマンス ベンチマークにまで拡張され、高品質のデータと思慮深いスケーリングによって、大幅に少ないトレーニング トークンで競争力のある結果がどのように得られるかを実証しています。
これらのエクスペリエンスを詳細に説明し、トレーニング ログ、チェックポイント、サンプル出力を提供することで、将来の研究者や実践者が事前トレーニング戦略を洗練できるようガイドすることを目指しています。
トレーニング スクリプトは、Github (https://github.com/McGill-DMaS/DMaS-LLaMa-Lite-Training-Code) で入手できます。
モデルのチェックポイントは、Huggingface (https://huggingface.co/collections/McGill-DMaS/dmas-llama-lite-6761d97ba903f82341954ceb) で入手できます。
要約(オリジナル)
Pretraining large language models is a complex endeavor influenced by multiple factors, including model architecture, data quality, training continuity, and hardware constraints. In this paper, we share insights gained from the experience of training DMaS-LLaMa-Lite, a fully open source, 1.7-billion-parameter, LLaMa-based model, on approximately 20 billion tokens of carefully curated data. We chronicle the full training trajectory, documenting how evolving validation loss levels and downstream benchmarks reflect transitions from incoherent text to fluent, contextually grounded output. Beyond pretraining, we extend our analysis to include a post-training phase focused on instruction tuning, where the model was refined to produce more contextually appropriate, user-aligned responses. We highlight practical considerations such as the importance of restoring optimizer states when resuming from checkpoints, and the impact of hardware changes on training stability and throughput. While qualitative evaluation provides an intuitive understanding of model improvements, our analysis extends to various performance benchmarks, demonstrating how high-quality data and thoughtful scaling enable competitive results with significantly fewer training tokens. By detailing these experiences and offering training logs, checkpoints, and sample outputs, we aim to guide future researchers and practitioners in refining their pretraining strategies. The training script is available on Github at https://github.com/McGill-DMaS/DMaS-LLaMa-Lite-Training-Code. The model checkpoints are available on Huggingface at https://huggingface.co/collections/McGill-DMaS/dmas-llama-lite-6761d97ba903f82341954ceb.
arxiv情報
著者 | Miles Q. Li,Benjamin C. M. Fung,Shih-Chia Huang |
発行日 | 2024-12-20 16:00:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google