Baby Llama: knowledge distillation from an ensemble of teachers trained on a small dataset with no performance penalty

要約

BabyLMチャレンジ[arXiv:2301.11796]は、言語モデルのサンプル効率を向上させることを目的としたチャレンジである。我々は、GPT-2と小さなLLaMAモデルからなるアンサンブルを、発達がもっともらしい10M語のBabyLMデータセットで訓練し、それを58Mパラメータの小さなLLaMAモデルに蒸留した。このことは、十分小さいデータセットで教師モデルを訓練した場合、蒸留は教師モデルの性能を完全に維持できるだけでなく、それを上回り、直接訓練よりも大幅に優れた性能になることを示唆している。

要約(オリジナル)

We present our proposed solution to the BabyLM challenge [arXiv:2301.11796], whose goal was to improve the sample efficiency of language models. We trained an ensemble consisting of a GPT-2 and small LLaMA models on the developmentally-plausible, 10M-word BabyLM dataset, then distilled it into a small, 58M-parameter LLaMA model, which exceeds in performance both of its teachers as well as a similar model trained without distillation. This suggests that distillation can not only retain the full performance of the teacher model when the latter is trained on a sufficiently small dataset; it can exceed it, and lead to significantly better performance than direct training.

arxiv情報

著者 Inar Timiryasov,Jean-Loup Tastet
発行日 2023-08-03 20:20:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, I.2.7 パーマリンク