A Hitchhiker’s Guide to Scaling Law Estimation

要約

スケーリング則は、より少ないパラメーターまたはより小さなトレーニング セットを使用してトレーニングが容易なモデルから外挿することにより、ターゲットの機械学習モデルの損失を予測します。
これにより、実務者も研究者も、オプティマイザー、データセット、モデル アーキテクチャに関わる事前トレーニングの決定を比較する効率的な方法が提供されます。
言語モデルのトレーニングのダイナミクスをモデル化するためにスケーリング則が広く使用されているにもかかわらず、それらを最適に推定して解釈する方法を理解するための研究はほとんど行われていません。
私たちは、以前に公開された 485 個の事前トレーニング済みモデルの損失と下流の評価を含む大規模なデータセットを収集 (およびリリース) します。
これらを使用して 1000 を超えるスケーリング則を推定し、新しいモデル ファミリでスケーリング則を推定するための一連のベスト プラクティスを導き出します。
トレーニング実行の中間チェックポイント (最終的な損失だけでなく) にスケーリング則を当てはめると、精度が大幅に向上し、他のすべてが等しい場合、パフォーマンスの推定値は一般に、同様のサイズの他のモデルから導出された場合に最も正確になることがわかりました。
ただし、モデル シード間でかなりのばらつきがあるため、単一の大きなモデルをトレーニングするよりも、複数の小さなモデルをトレーニングする方が役立つ場合があります。
さらに、異なるモデル ファミリはスケーリング動作が異なりますが、多くの場合、それらは十分に類似しているため、ターゲット モデルの動作は、他のモデル ファミリから導出されたスケーリング パラメーター推定値とともに、同じアーキテクチャを持つ単一のモデルから予測できます。

要約(オリジナル)

Scaling laws predict the loss of a target machine learning model by extrapolating from easier-to-train models with fewer parameters or smaller training sets. This provides an efficient way for practitioners and researchers alike to compare pretraining decisions involving optimizers, datasets, and model architectures. Despite the widespread use of scaling laws to model the dynamics of language model training, there has been little work on understanding how to best estimate and interpret them. We collect (and release) a large-scale dataset containing losses and downstream evaluations for 485 previously published pretrained models. We use these to estimate more than 1000 scaling laws, then derive a set of best practices for estimating scaling laws in new model families. We find that fitting scaling laws to intermediate checkpoints of training runs (and not just their final losses) substantially improves accuracy, and that — all else equal — estimates of performance are generally most accurate when derived from other models of similar sizes. However, because there is a significant degree of variability across model seeds, training multiple small models is sometimes more useful than training a single large one. Moreover, while different model families differ scaling behavior, they are often similar enough that a target model’s behavior can be predicted from a single model with the same architecture, along with scaling parameter estimates derived from other model families.

arxiv情報

著者 Leshem Choshen,Yang Zhang,Jacob Andreas
発行日 2024-10-15 17:59:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク