Baby Llama: knowledge distillation from an ensemble of teachers trained on a small dataset with no performance penalty

要約

私たちは、言語モデルのサンプル効率を向上させることを目的とした BabyLM チャレンジへの提出物を紹介します。
私たちは、GPT-2 モデルと小さな LLaMA モデルで構成されるアンサンブルを、発達上妥当な 1,000 万ワードの BabyLM データセットでトレーニングし、それを抽出して 5,800 万パラメータの小さな LLaMA モデルを作成しました。これは、教師だけでなくパフォーマンスにおいても優れています。
蒸留せずにトレーニングされた同様のモデル。
これは、教師モデルが十分に小さいデータセットでトレーニングされた場合、蒸留によって教師モデルのパフォーマンスを最大限に維持できるだけではないことを示唆しています。
それを超える可能性があり、直接トレーニングよりも大幅に優れたパフォーマンスにつながります。

要約(オリジナル)

We present our submission to the BabyLM challenge, whose goal was to improve the sample efficiency of language models. We trained an ensemble consisting of a GPT-2 and small LLaMA models on the developmentally-plausible, 10M-word BabyLM dataset, then distilled it into a small, 58M-parameter LLaMA model, which exceeds in performance both of its teachers as well as a similar model trained without distillation. This suggests that distillation can not only retain the full performance of the teacher model when the latter is trained on a sufficiently small dataset; it can exceed it, and lead to significantly better performance than direct training.

arxiv情報

著者 Inar Timiryasov,Jean-Loup Tastet
発行日 2023-10-24 17:58:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク