Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws

要約

大規模言語モデル (LLM) のスケーリング則は、パラメーター数とトレーニング データの増加によるモデル品質の変化を推定する経験式です。
ただし、一般的なディープマインド チンチラのスケーリング法則を含むこれらの式では、推論のコストが考慮されていません。
チンチラのスケーリング則を変更して、最適な LLM パラメーター数と事前トレーニング データ サイズを計算し、特定の品質と推論要求のモデルをトレーニングしてデプロイします。
私たちはコンピューティング予算と現実世界のコストの両方の観点から分析を行った結果、かなり大きな推論需要 (約 10 億リクエスト) を予想する LLM 研究者は、チンチラ最適化よりも小さくて長いモデルをトレーニングする必要があることがわかりました。
さらに、さまざまなサイズとパラメーター数の 47 個のモデルをトレーニングして式を検証し、パラメーターごとのトークンを極端な範囲 (最大 10,000) にスケールするにつれてモデルの品質が向上し続けることがわかりました。
最後に、チンチラのスケーリング則係数を適合させるために使用される手順を除去し、典型的なトークン/パラメーター比で収集されたデータのみからスケーリング則を開発すると、これらの極端な範囲で追加のトークンの影響が過大評価されることがわかります。

要約(オリジナル)

Large language model (LLM) scaling laws are empirical formulas that estimate changes in model quality as a result of increasing parameter count and training data. However, these formulas, including the popular Deepmind Chinchilla scaling laws, neglect to include the cost of inference. We modify the Chinchilla scaling laws to calculate the optimal LLM parameter count and pre-training data size to train and deploy a model of a given quality and inference demand. We conduct our analysis both in terms of a compute budget and real-world costs and find that LLM researchers expecting reasonably large inference demand (~1B requests) should train models smaller and longer than Chinchilla-optimal. Furthermore, we train 47 models of varying sizes and parameter counts to validate our formula and find that model quality continues to improve as we scale tokens per parameter to extreme ranges (up to 10,000). Finally, we ablate the procedure used to fit the Chinchilla scaling law coefficients and find that developing scaling laws only from data collected at typical token/parameter ratios overestimates the impact of additional tokens at these extreme ranges.

arxiv情報

著者 Nikhil Sardana,Jacob Portes,Sasha Doubov,Jonathan Frankle
発行日 2024-07-18 14:23:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク