Research without Re-search: Maximal Update Parametrization Yields Accurate Loss Prediction across Scales

要約

【タイトル】リサーチなしの研究:Maximal Update Parametrizationがスケールを超えた正確なロス予測を可能にする

【要約】
– 言語モデルがスケールアップするにつれ、小規模なモデルの結論が大規模なモデルに簡単に転用できなくなるため、研究アイデアを検証することがますます費用がかかるようになります。
– しかし、小規模なモデルの結果とハイパーパラメータに基づいて、大規模なモデルのいくつかのメトリクスを直接予測する汎用システムを確立することができます。
– 次に、Maximal Updateパラメータ化(muP)が、基準となる損失が近いハイパーパラメータに対してスケーリング法の精度を高めることができることを発見し、ハイパーパラメータ検索なしで異なるモデルを大規模なスケールで直接比較できるようになりました。
– この新しいパラダイムは、重い計算なしにどのモデルスケールにおいても信頼性の高い学術研究に向けた最初のステップとなります。
– コードは近日中に公開されます。

要約(オリジナル)

As language models scale up, it becomes increasingly expensive to verify research ideas because conclusions on small models do not trivially transfer to large ones. A possible solution is to establish a generic system that directly predicts some metrics for large models solely based on the results and hyperparameters from small models. Existing methods based on scaling laws require hyperparameter search on the largest models, which is impractical with limited resources. We address this issue by presenting our discoveries indicating that Maximal Update parametrization (muP) enables accurate fitting of scaling laws for hyperparameters close to common loss basins, without any search. Thus, different models can be directly compared on large scales with loss prediction even before the training starts. We propose a new paradigm as a first step towards reliable academic research for any model scale without heavy computation. Code will be publicly available shortly.

arxiv情報

著者 Yiqun Yao,Yequan Wang
発行日 2023-04-14 00:45:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG パーマリンク