A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs

要約

大規模言語モデル (LLM) 開発における主な課題は、膨大な事前トレーニング コストです。
通常、このような事前トレーニングには、大規模なコーパスに対する自己教師あり目標 (次のトークンの予測など) の最適化が含まれます。
このペーパーでは、小規模言語モデル (SLM) を適切に活用することで、LLM の事前トレーニングの効率と品質を向上させる有望なパラダイムを検討します。
特に、このパラダイムは、(1) 追加のトレーニング監督としてソフト ラベルを提供すること、および (2) 貴重な (「有益な」および「ハード」) トレーニング サンプルの小さなサブセットを選択することの両方を行うために SLM に依存しています。
まとめると、これにより、トレーニング データ分布の特定の領域を優先しながら、SLM の予測分布を LLM に効果的に転送できるようになります。
経験的には、これにより、標準的なトレーニングと比較して LLM トレーニング時間が短縮され、全体的な品質が向上します。
理論的には、高品質の LLM の効率的なトレーニングを可能にする SLM の有用性を体系的に研究するための統計フレームワークを開発します。
特に、私たちのフレームワークは、SLM の一見低品質な監督が、より有能な LLM のトレーニングをどのように強化できるかを特徴づけています。
さらに、SLM が提供するソフト ラベルによってもたらされるバイアスと差異の間のバランスをとることによって、そのような監視を適応的に利用する必要性も強調しています。
Pile データセット上で 1.5B パラメータを持つより小さな LM を利用することで、2.8B パラメータを持つ LLM の事前トレーニングを改善することで、理論的フレームワークを裏付けます。

要約(オリジナル)

A primary challenge in large language model (LLM) development is their onerous pre-training cost. Typically, such pre-training involves optimizing a self-supervised objective (such as next-token prediction) over a large corpus. This paper explores a promising paradigm to improve LLM pre-training efficiency and quality by suitably leveraging a small language model (SLM). In particular, this paradigm relies on an SLM to both (1) provide soft labels as additional training supervision, and (2) select a small subset of valuable (‘informative’ and ‘hard’) training examples. Put together, this enables an effective transfer of the SLM’s predictive distribution to the LLM, while prioritizing specific regions of the training data distribution. Empirically, this leads to reduced LLM training time compared to standard training, while improving the overall quality. Theoretically, we develop a statistical framework to systematically study the utility of SLMs in enabling efficient training of high-quality LLMs. In particular, our framework characterizes how the SLM’s seemingly low-quality supervision can enhance the training of a much more capable LLM. Furthermore, it also highlights the need for an adaptive utilization of such supervision, by striking a balance between the bias and variance introduced by the SLM-provided soft labels. We corroborate our theoretical framework by improving the pre-training of an LLM with 2.8B parameters by utilizing a smaller LM with 1.5B parameters on the Pile dataset.

arxiv情報

著者 Ankit Singh Rawat,Veeranjaneyulu Sadhanala,Afshin Rostamizadeh,Ayan Chakrabarti,Wittawat Jitkrittum,Vladimir Feinberg,Seungyeon Kim,Hrayr Harutyunyan,Nikunj Saunshi,Zachary Nado,Rakesh Shivanna,Sashank J. Reddi,Aditya Krishna Menon,Rohan Anil,Sanjiv Kumar
発行日 2024-10-24 14:31:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク