要約
スケーリング則は、単一のデータ分布の計算スケール全体で列車損失を予測するための信頼できる方法論を提供しますが、分布を変更したときにこれらの予測がどのように変化するかについてはあまり知られていません。
この論文では、ある損失から別の損失を予測するための戦略を導き出し、それをさまざまな事前トレーニング データセット間および事前トレーニング データから下流のタスク データまでの予測に適用します。
私たちの予測は、曲線を当てはめるために使用された最大 FLOP バジェットの 20 倍でも十分に外挿されます。
より正確には、(1) トレーニング計算 (トレーニング間) によってモデルがペアになっている場合の、2 つの別々のデータセットでトレーニングされた 2 つのモデルの列車損失、(2) 列車損失の間には、単純なシフトべき乗則関係があることがわかります。
(3) 2 つの別個のトレイン データセットでトレーニングされた 2 つのモデルのテスト損失 (テスト間)。
結果は、大幅に異なる事前トレーニング データセット (完全にコードであるものもあれば、コードがまったくないものもあります) や、さまざまな下流タスクにわたって当てはまります。
最後に、一部の設定では、これらのシフトされたべき乗則の関係により、単一のデータセットのスケーリング則を外挿するよりも正確な予測が得られることがわかりました。
要約(オリジナル)
While scaling laws provide a reliable methodology for predicting train loss across compute scales for a single data distribution, less is known about how these predictions should change as we change the distribution. In this paper, we derive a strategy for predicting one loss from another and apply it to predict across different pre-training datasets and from pre-training data to downstream task data. Our predictions extrapolate well even at 20x the largest FLOP budget used to fit the curves. More precisely, we find that there are simple shifted power law relationships between (1) the train losses of two models trained on two separate datasets when the models are paired by training compute (train-to-train), (2) the train loss and the test loss on any downstream distribution for a single model (train-to-test), and (3) the test losses of two models trained on two separate train datasets (test-to-test). The results hold up for pre-training datasets that differ substantially (some are entirely code and others have no code at all) and across a variety of downstream tasks. Finally, we find that in some settings these shifted power law relationships can yield more accurate predictions than extrapolating single-dataset scaling laws.
arxiv情報
著者 | David Brandfonbrener,Nikhil Anand,Nikhil Vyas,Eran Malach,Sham Kakade |
発行日 | 2024-11-19 23:23:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google