A Large-Scale Exploration of $μ$-Transfer


大規模なニューラル ネットワーク モデルは自然言語処理とコンピューター ビジョンの主流となっていますが、その初期化と学習率は主にヒューリスティックな方法で設定されており、論文ごと、モデル サイズごとに異なる可能性があります。
$\mu$-Parameterization ($\mu$P) は、これらの課題に対する潜在的な解決策を提供し、モデルの初期化と学習率のスケーリング ルールを生み出し、さまざまなケースで小規模モデルから大規模モデルへのゼロショット ハイパーパラメータ転送を可能にすると言われています。

明らかな期待にもかかわらず、$\mu$P スケーリング ルールはまだ広く採用されていません。これはおそらく、実装の複雑さ、多くのバリエーション、または複雑な理論的背景のためです。
この研究は、ユビキタスな変換器アーキテクチャに焦点を当てて $\mu$P を経験的に調査し、$\mu$-Transfer は実際に最適な学習率をもたらすのかという単純な質問に答えることを目的としています。
最大 100 億のパラメーターと最大 1900 億のトークンのトレーニング バジェットを持つモデルを研究したところ、$\mu$-Transfer はほとんどの重要なケースで意図したとおりに機能することがわかりましたが、機能しない可能性のあるいくつかのケースも特定されました。
私たちの実験コードベースは https://github.com/lucaslingle/mu_transformer/ から入手できます。


Large neural network models have become a mainstay of natural language processing and computer vision, yet their initialization and learning rates are set in a largely heuristic fashion, potentially varying from paper to paper and one model size to the next. The $\mu$-Parameterization ($\mu$P) offers a potential solution to these challenges, yielding scaling rules for model initialization and learning rates, and reportedly enabling zero-shot hyperparameter transfer from small to large models in a variety of cases. Despite the evident promise, the $\mu$P scaling rules are not yet widely adopted, perhaps due to higher implementation complexity, many variations, or complex theoretical background. This work investigates $\mu$P empirically, focusing on the ubiquitous transformer architecture, and aims to answer a simple question: does $\mu$-Transfer yield optimal learning rates in practice? Studying models with up to 10B parameters and training budgets of up to 190B tokens, we find $\mu$-Transfer works as intended for the majority of important cases, yet also identify a few cases where it may not. Our experiment codebase is available at https://github.com/lucaslingle/mu_transformer/


著者 Lucas Lingle
発行日 2024-04-18 14:56:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク