Resolving Discrepancies in Compute-Optimal Scaling of Language Models

要約

カプランら。
およびホフマンら。
は、計算予算に応じて最適なモデル サイズを決定するための影響力のあるスケーリング則を開発しましたが、これらの法則は大幅に異なる予測をもたらします。
2 つのデータセット (OpenWebText2 と RefinedWeb) でカプラン スケーリング則を再現し、違いの原因となっている 3 つの要因 (最終層の計算コスト、ウォームアップ時間、およびスケール依存のオプティマイザー チューニング) を特定することで、この不一致を説明します。
これらの要因を修正すると、Hoffmann らの論文との優れた一致が得られます。
(つまり、「チンチラ」) スケーリング則。
ホフマンらの仮説に反して、私たちは、学習率の減衰を注意深く行うことが彼らのスケーリング則の妥当性にとって必須ではないことを発見しました。
副次的な結果として、最適な学習率とバッチ サイズのスケーリング則を導き出し、より低いバッチ サイズでは AdamW $\beta_2$ パラメーターの調整が不可欠であることがわかりました。

要約(オリジナル)

Kaplan et al. and Hoffmann et al. developed influential scaling laws for the optimal model size as a function of the compute budget, but these laws yield substantially different predictions. We explain the discrepancy by reproducing the Kaplan scaling law on two datasets (OpenWebText2 and RefinedWeb) and identifying three factors causing the difference: last layer computational cost, warmup duration, and scale-dependent optimizer tuning. With these factors corrected, we obtain excellent agreement with the Hoffmann et al. (i.e., ‘Chinchilla’) scaling law. Counter to a hypothesis of Hoffmann et al., we find that careful learning rate decay is not essential for the validity of their scaling law. As a secondary result, we derive scaling laws for the optimal learning rate and batch size, finding that tuning the AdamW $\beta_2$ parameter is essential at lower batch sizes.

arxiv情報

著者 Tomer Porian,Mitchell Wortsman,Jenia Jitsev,Ludwig Schmidt,Yair Carmon
発行日 2024-07-25 13:09:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク