Pre-training Small Base LMs with Fewer Tokens

要約

既存の大規模な基本言語モデル (LM) から開始して小規模な基本言語モデル (LM) を開発する単純なアプローチの有効性を研究します。まず、より大きな LM からいくつかの変換ブロックを継承し、次にこの小さなモデルを非常に小さなサブセット (0.1 個) でトレーニングします。
\%) より大きなモデルの生の事前トレーニング データ。
シンプルなレシピを Inheritune と呼び、最初に 1B トークンを使用して 1.5B パラメータを持つ小さな基本 LM を構築する方法を示します (および 3B パラメータのより大きな LM の最初の数層)。
単一の A6000 GPU を使用してこれを半日もかかりません。
MMLU ベンチマークだけでなく 9 つの多様な評価データセットにわたって、結果として得られるモデルは、公開されている 1B ~ 2B サイズの基本モデルと比べて優れており、その一部は 50 ~ 1000 倍のトークンを使用してトレーニングされています。
私たちは、より大きな LM とその完全な事前トレーニング データセットを利用して小さな LM をトレーニングする、少し異なる設定で Inheritune を調査します。
ここでは、GPT2-medium (355M) および GPT-2-large (770M) のレイヤーの一部を利用してトレーニングされた小規模な LM が、同じトレーニング ステップ数でゼロからトレーニングされた場合に、より大きな対応する LM の val loss と効果的に一致できることを示します。
9B トークンを含む OpenWebText データセット。
私たちは広範な実験によってレシピを分析し、さまざまな設定でその有効性を実証します。
私たちのコードは https://github.com/sanyalsunny111/LLM-Inheritune で入手できます。

要約(オリジナル)

We study the effectiveness of a simple approach to develop a small base language model (LM) starting from an existing large base LM: first inherit a few transformer blocks from the larger LM, and then train this smaller model on a very small subset (0.1\%) of the raw pretraining data of the larger model. We call our simple recipe Inheritune and first demonstrate it for building a small base LM with 1.5B parameters using 1B tokens (and a starting few layers of larger LM of 3B parameters); we do this using a single A6000 GPU for less than half a day. Across 9 diverse evaluation datasets as well as the MMLU benchmark, the resulting model compares favorably to publicly available base models of 1B-2B size, some of which have been trained using 50-1000 times more tokens. We investigate Inheritune in a slightly different setting where we train small LMs utilizing larger LMs and their full pre-training dataset. Here we show that smaller LMs trained utilizing some of the layers of GPT2-medium (355M) and GPT-2-large (770M) can effectively match the val loss of their bigger counterparts when trained from scratch for the same number of training steps on OpenWebText dataset with 9B tokens. We analyze our recipe with extensive experiments and demonstrate it efficacy on diverse settings. Our code is available at https://github.com/sanyalsunny111/LLM-Inheritune.

arxiv情報

著者 Sunny Sanyal,Sujay Sanghavi,Alexandros G. Dimakis
発行日 2024-04-12 17:53:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク