要約
カプランら。
[2020] (「カプラン」) およびホフマンら。
[2022] (`Chinchilla’) は、ネクストトークン言語予測で訓練されたトランスフォーマーのスケーリング動作を研究しました。
これらの調査では、特定のコンピューティング バジェット ($C$) で損失を最小限に抑えるために、パラメーターの数 ($N$) とトレーニング トークン ($D$) をどのように設定する必要があるかについて、さまざまな推定値が生成されました。
カプラン: $N_\text{最適} \propto C^{0.73}$、チンチラ: $N_\text{最適} \propto C^{0.50}$。
この論文では、この不一致の多くは、総パラメータではなくカプランの非埋め込みカウントと、小規模で実行された分析との組み合わせに起因する可能性があることを発見しました。
これらの条件下でチンチラの研究をシミュレートすると、カプランの係数に近い偏ったスケーリング係数が生成されます。
したがって、この論文は、カプランの元々の過大評価の主な原因を説明することによって、チンチラのスケーリング係数を再確認します。
2 番目の貢献として、この論文では、報告されている損失とコンピューティングの関係の違いについて説明しています。
これらの発見により、今後のスケーリング研究では合計パラメーターと計算を使用することを推奨します。
要約(オリジナル)
Kaplan et al. [2020] (`Kaplan’) and Hoffmann et al. [2022] (`Chinchilla’) studied the scaling behavior of transformers trained on next-token language prediction. These studies produced different estimates for how the number of parameters ($N$) and training tokens ($D$) should be set to achieve the lowest possible loss for a given compute budget ($C$). Kaplan: $N_\text{optimal} \propto C^{0.73}$, Chinchilla: $N_\text{optimal} \propto C^{0.50}$. This paper finds that much of this discrepancy can be attributed to Kaplan counting non-embedding rather than total parameters, combined with their analysis being performed at small scale. Simulating the Chinchilla study under these conditions produces biased scaling coefficients close to Kaplan’s. Hence, this paper reaffirms Chinchilla’s scaling coefficients, by explaining the primary cause of Kaplan’s original overestimation. As a second contribution, the paper explains differences in the reported relationships between loss and compute. These findings lead us to recommend that future scaling studies use total parameters and compute.
arxiv情報
著者 | Tim Pearce,Jinyeop Song |
発行日 | 2024-11-21 12:17:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google