要約
私たちは、言語モデルのサンプル効率を向上させることを目的とした BabyLM チャレンジへの提出物を紹介します。
私たちは、GPT-2 モデルと小さな LLaMA モデルで構成されるアンサンブルを、発達上妥当な 1,000 万ワードの BabyLM データセットでトレーニングし、それを抽出して 5,800 万パラメータの小さな LLaMA モデルを作成しました。これは、教師だけでなくパフォーマンスにおいても優れています。
蒸留せずにトレーニングされた同様のモデル。
これは、教師モデルが十分に小さいデータセットでトレーニングされた場合、蒸留によって教師モデルのパフォーマンスを最大限に維持できるだけではないことを示唆しています。
それを超える可能性があり、直接トレーニングよりも大幅に優れたパフォーマンスにつながります。
要約(オリジナル)
We present our submission to the BabyLM challenge, whose goal was to improve the sample efficiency of language models. We trained an ensemble consisting of a GPT-2 and small LLaMA models on the developmentally-plausible, 10M-word BabyLM dataset, then distilled it into a small, 58M-parameter LLaMA model, which exceeds in performance both of its teachers as well as a similar model trained without distillation. This suggests that distillation can not only retain the full performance of the teacher model when the latter is trained on a sufficiently small dataset; it can exceed it, and lead to significantly better performance than direct training.
arxiv情報
著者 | Inar Timiryasov,Jean-Loup Tastet |
発行日 | 2023-10-24 17:58:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google