要約
知識蒸留 (KD) は、大規模な教師モデルから小規模な生徒モデルに知識を伝達することを目的としています。
大規模言語モデル (LLM) の分野に KD を適用するこれまでの研究は、通常、教師モデルによって生成された指示と対応する応答から学生 LLM が直接学習するトレーニング後のフェーズに焦点を当てていました。
この論文では、KD をトレーニング前蒸留 (PD) と呼ばれる LLM のトレーニング前フェーズに拡張します。
まず、GLM-4-9B を教師 LLM として使用し、パラメータ 1.9B の生徒 LLM を蒸留する予備実験を実行し、PD の有効性を検証します。
蒸留の主要な影響因子を考慮して、ロジット処理、損失選択、スケーリング則、オフラインまたはオンライン ロジットの 4 つの側面にわたって、事前トレーニング蒸留の設計空間を体系的に調査します。
私たちは、トレーニング前蒸留の設計空間を調査するために広範な実験を実施し、より良い構成と興味深い結論を見つけます。たとえば、学生 LLM の規模が大きいほど、一般にトレーニング前蒸留からより多くのメリットが得られますが、教師 LLM の規模が大きいほど、必ずしもより良い結果が保証されるわけではありません。
設計空間の探索が、トレーニング前の蒸留における将来の実践に役立つことを願っています。
要約(オリジナル)
Knowledge distillation (KD) aims to transfer knowledge from a large teacher model to a smaller student model. Previous work applying KD in the field of large language models (LLMs) typically focused on the post-training phase, where the student LLM learns directly from instructions and corresponding responses generated by the teacher model. In this paper, we extend KD to the pre-training phase of LLMs, named pre-training distillation (PD). We first conduct a preliminary experiment using GLM-4-9B as the teacher LLM to distill a 1.9B parameter student LLM, validating the effectiveness of PD. Considering the key impact factors of distillation, we systematically explore the design space of pre-training distillation across four aspects: logits processing, loss selection, scaling law, and offline or online logits. We conduct extensive experiments to explore the design space of pre-training distillation and find better configurations and interesting conclusions, such as larger student LLMs generally benefiting more from pre-training distillation, while a larger teacher LLM does not necessarily guarantee better results. We hope our exploration of the design space will inform future practices in pre-training distillation.
arxiv情報
著者 | Hao Peng,Xin Lv,Yushi Bai,Zijun Yao,Jiajie Zhang,Lei Hou,Juanzi Li |
発行日 | 2024-10-21 17:16:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google