Research without Re-search: Maximal Update Parametrization Yields Accurate Loss Prediction across Scales

要約

【タイトル】リサーチなしの研究:最大アップデートパラメータ化により、スケールにわたる正確な損失予測が可能に
【要約】
– 言語モデルがスケールアップするにつれて、小規模モデルの結論が大規模モデルにそのまま適用できなくなり、研究アイデアの検証がますます困難になっている。
– 大規模モデルの結果とハイパーパラメータに基づいて、大規模モデルのいくつかのメトリクスを直接予測する汎用システムを確立することが可能である。
– 既存のスケーリング則に基づく方法は、最大のモデルでハイパーパラメータ検索を必要とし、リソースが限られているときには実用的ではない。
– 現在の研究では、モデルが共通の損失盆地近くのハイパーパラメータにおいて、スケーリング則の正確なフィットが最大アップデートパラメータ化(muP)によって可能であることが示され、研究目的のために様々なモデルを直接比較できる。
– 大規模なモデルのトレーニングが始まる前に、損失予測によって異なるモデルを大規模なスケールで比較することが可能になり、重い計算を必要としない新しい研究パラダイムが提案されている。
– コードは近日中に公開される予定。

要約(オリジナル)

As language models scale up, it becomes increasingly expensive to verify research ideas because conclusions on small models do not trivially transfer to large ones. A possible solution is to establish a generic system that directly predicts some metrics for large models solely based on the results and hyperparameters from small models. Existing methods based on scaling laws require hyperparameter search on the largest models, which is impractical with limited resources. We address this issue by presenting our discoveries indicating that Maximal Update parametrization (muP) enables accurate fitting of scaling laws for hyperparameters close to common loss basins, without any search. Thus, different models can be directly compared on large scales with loss prediction even before the training starts. We propose a new paradigm as a first step towards reliable academic research for any model scale without heavy computation. Code will be publicly available shortly.

arxiv情報

著者 Yiqun Yao,Yequan Wang
発行日 2023-04-29 03:14:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG パーマリンク