Language models scale reliably with over-training and on downstream tasks

要約

スケーリングの法則は言語モデルを開発するための有用なガイドですが、現在のスケーリング研究と言語モデルが最終的にトレーニングおよび評価される方法との間にはまだギャップがあります。
たとえば、スケーリングは通常、コンピューティング最適化トレーニング方式 (つまり、「チンチラ最適」方式) で研究されます。
ただし、実際には、推論コストを削減するためにモデルが過剰にトレーニングされることがよくあります。
さらに、スケーリングの法則は主に次のトークンの予測で損失を予測しますが、最終的には下流のタスクのパフォーマンスに基づいてモデルが比較されます。
このホワイトペーパーでは、両方の欠点について説明します。
そのために、3 つのデータ分布でさまざまな数のトークンを使用してトレーニングされた、0.011B ~ 6.9B のパラメーターを持つ 104 個のモデルのテストベッドを作成します。
まず、オーバートレーニング領域でのスケーリングを調査します。
モデルパラメータの数とパラメータに対するトレーニングトークンの比率の両方を推定するスケーリング則を当てはめます。
これにより、1.4B パラメータ、900B トークン実行 (つまり、32$\times$ のオーバートレーニング) と 6.9B パラメータ、138B トークン run$\unicode{x2014}$それぞれの検証損失を、
計算量が 300$\time$ 削減されます。
次に、言語モデルの複雑さを、べき乗則を介して下流のタスクのパフォーマンスに関連付けます。
この法則を使用して、計算量が 20 倍少ない実験を使用して、前述の 2 つのモデルの下流タスクの平均上位 1 エラーを予測します。
私たちの実験は https://github.com/mlfoundations/scaling で入手できます。

要約(オリジナル)

Scaling laws are useful guides for developing language models, but there are still gaps between current scaling studies and how language models are ultimately trained and evaluated. For instance, scaling is usually studied in the compute-optimal training regime (i.e., ‘Chinchilla optimal’ regime); however, in practice, models are often over-trained to reduce inference costs. Moreover, scaling laws mostly predict loss on next-token prediction, but ultimately models are compared based on downstream task performance. In this paper, we address both shortcomings. To do so, we create a testbed of 104 models with 0.011B to 6.9B parameters trained with various numbers of tokens on three data distributions. First, we investigate scaling in the over-trained regime. We fit scaling laws that extrapolate in both the number of model parameters and the ratio of training tokens to parameters. This enables us to predict the validation loss of a 1.4B parameter, 900B token run (i.e., 32$\times$ over-trained) and a 6.9B parameter, 138B token run$\unicode{x2014}$each from experiments that take 300$\times$ less compute. Second, we relate the perplexity of a language model to its downstream task performance via a power law. We use this law to predict top-1 error averaged over downstream tasks for the two aforementioned models using experiments that take 20$\times$ less compute. Our experiments are available at https://github.com/mlfoundations/scaling.

arxiv情報

著者 Samir Yitzhak Gadre,Georgios Smyrnis,Vaishaal Shankar,Suchin Gururangan,Mitchell Wortsman,Rulin Shao,Jean Mercat,Alex Fang,Jeffrey Li,Sedrick Keh,Rui Xin,Marianna Nezhurina,Igor Vasiljevic,Jenia Jitsev,Alexandros G. Dimakis,Gabriel Ilharco,Shuran Song,Thomas Kollar,Yair Carmon,Achal Dave,Reinhard Heckel,Niklas Muennighoff,Ludwig Schmidt
発行日 2024-03-13 13:54:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク