要約
ホフマンら。
(2022) 計算に最適なスケーリング則を推定するための 3 つの方法を提案しています。
我々は、彼らのプロットからのデータの再構成にパラメトリック損失関数を当てはめることを含む、彼らの 3 番目の推定手順を再現しようと試みます。
報告された推定値は最初の 2 つの推定方法と一致せず、抽出されたデータのフィッティングに失敗し、信じられないほど狭い信頼区間が報告されていることがわかりました。これほど狭い区間では 600,000 回を超える実験が必要ですが、実際に実行されたのはおそらく 500 回未満です。
、3 番目のアプローチを使用してスケーリング則を再導出すると、Hoffmann らによって説明された最初の 2 つの推定手順の結果と互換性のある結果が得られます。
要約(オリジナル)
Hoffmann et al. (2022) propose three methods for estimating a compute-optimal scaling law. We attempt to replicate their third estimation procedure, which involves fitting a parametric loss function to a reconstruction of data from their plots. We find that the reported estimates are inconsistent with their first two estimation methods, fail at fitting the extracted data, and report implausibly narrow confidence intervals–intervals this narrow would require over 600,000 experiments, while they likely only ran fewer than 500. In contrast, our rederivation of the scaling law using the third approach yields results that are compatible with the findings from the first two estimation procedures described by Hoffmann et al.
arxiv情報
著者 | Tamay Besiroglu,Ege Erdil,Matthew Barnett,Josh You |
発行日 | 2024-05-15 00:57:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google