A Large-Scale Exploration of $μ$-Transfer

要約

大規模なニューラル ネットワーク モデルは自然言語処理とコンピューター ビジョンの主流となっていますが、その初期化と学習率は主にヒューリスティックな方法で設定されており、論文ごと、モデル サイズごとに異なる可能性があります。
$\mu$-Parameterization ($\mu$P) は、これらの課題に対する潜在的な解決策を提供し、モデルの初期化と学習率のスケーリング ルールを生み出し、さまざまなケースで小規模モデルから大規模モデルへのゼロショット ハイパーパラメータ転送を可能にすると言われています。

明らかな期待にもかかわらず、$\mu$P スケーリング ルールはまだ広く採用されていません。これはおそらく、実装の複雑さ、多くのバリエーション、または複雑な理論的背景が原因です。
この研究は、ユビキタスな変換器アーキテクチャに焦点を当てて $\mu$P を経験的に調査し、$\mu$-Transfer は実際に最適な学習率をもたらすのかという単純な質問に答えることを目的としています。
2M から 10B のパラメータを持つモデルから、$\mu$-Transfer がほとんどの重要なケースで意図したとおりに機能することを示しますが、そうでない可能性のあるいくつかの驚くべきケースも特定します。

要約(オリジナル)

Large neural network models have become a mainstay of natural language processing and computer vision, yet their initialization and learning rates are set in a largely heuristic fashion, potentially varying from paper to paper and one model size to the next. The $\mu$-Parameterization ($\mu$P) offers a potential solution to these challenges, yielding scaling rules for model initialization and learning rates, and reportedly enabling zero-shot hyperparameter transfer from small to large models in a variety of cases. Despite the evident promise, the $\mu$P scaling rules are not yet widely adopted, perhaps due to higher implementation complexity, many variations, or complex theoretical background. This work investigates $\mu$P empirically, focusing on the ubiquitous transformer architecture, and aims to answer a simple question: does $\mu$-Transfer yield optimal learning rates in practice? From models with 2M to 10B parameters, we show that $\mu$-Transfer works as intended for the majority of important cases, but also identify some surprising cases where it may not.

arxiv情報

著者 Lucas Lingle
発行日 2024-04-08 17:59:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク