Simple and Scalable Strategies to Continually Pre-train Large Language Models

要約

大規模言語モデル (LLM) は、数十億のトークンで定期的に事前トレーニングされ、新しいデータが利用可能になったときにのみプロセスが再度開始されます。
はるかに効率的なソリューションは、これらのモデルを継続的に事前トレーニングし、再トレーニングと比較して大幅なコンピューティングを節約することです。
ただし、新しいデータによって引き起こされる分布のシフトは、通常、以前のデータのパフォーマンスの低下、または新しいデータへの適応の低下をもたらします。
この研究では、学習率 (LR) の再ウォーミング、LR の再減衰、および以前のデータの再生のシンプルでスケーラブルな組み合わせで、利用可能なすべてのデータを最初から完全に再トレーニングするパフォーマンスに十分匹敵することを示します。
最終的な損失と、いくつかの言語モデル (LM) 評価ベンチマークの平均スコアによって測定されます。
具体的には、$405$M パラメーター モデル スケールで、一般的に使用される 2 つの LLM 事前トレーニング データセット (English$\rightarrow$English) 間の弱いながらも現実的な分布シフトと、より強力な分布シフト (English$\rightarrow$German) についてこれを示します。
データセットのサイズが大きい (数千億のトークン)。
大規模実験用に弱いが現実的なシフトを選択すると、継続的な学習戦略が 10B パラメーター LLM の再トレーニング ベースラインと一致することもわかります。
私たちの結果は、コンピューティングの一部のみを使用して再トレーニング ベースラインと一致する、シンプルでスケーラブルな継続学習戦略によって LLM を正常に更新できることを示しています。
最後に、以前の研究に触発されて、LR の再ウォーミングによって引き起こされる忘却を回避するのに役立ち、固定のトークン予算に束縛されないコサイン学習率スケジュールの代替案を提案します。

要約(オリジナル)

Large language models (LLMs) are routinely pre-trained on billions of tokens, only to start the process over again once new data becomes available. A much more efficient solution is to continually pre-train these models, saving significant compute compared to re-training. However, the distribution shift induced by new data typically results in degraded performance on previous data or poor adaptation to the new data. In this work, we show that a simple and scalable combination of learning rate (LR) re-warming, LR re-decaying, and replay of previous data is sufficient to match the performance of fully re-training from scratch on all available data, as measured by the final loss and the average score on several language model (LM) evaluation benchmarks. Specifically, we show this for a weak but realistic distribution shift between two commonly used LLM pre-training datasets (English$\rightarrow$English) and a stronger distribution shift (English$\rightarrow$German) at the $405$M parameter model scale with large dataset sizes (hundreds of billions of tokens). Selecting the weak but realistic shift for larger-scale experiments, we also find that our continual learning strategies match the re-training baseline for a 10B parameter LLM. Our results demonstrate that LLMs can be successfully updated via simple and scalable continual learning strategies, matching the re-training baseline using only a fraction of the compute. Finally, inspired by previous work, we propose alternatives to the cosine learning rate schedule that help circumvent forgetting induced by LR re-warming and that are not bound to a fixed token budget.

arxiv情報

著者 Adam Ibrahim,Benjamin Thérien,Kshitij Gupta,Mats L. Richter,Quentin Anthony,Timothée Lesort,Eugene Belilovsky,Irina Rish
発行日 2024-03-26 17:58:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク