Scaling Exponents Across Parameterizations and Optimizers

要約

モデルを小さい幅から大きい幅まで堅牢かつ効果的にスケーリングするには、通常、パラメータ化やオプティマイザーの選択など、多くのアルゴリズムおよびアーキテクチャの詳細を正確に調整する必要があります。
この研究では、パラメータとデータの間の調整に関する以前の研究における重要な仮定を調査することによって、パラメータ化に関する新しい視点を提案し、より弱い仮定とより広範なオプティマイザのセットの下で新しい理論的結果を導き出します。
私たちの広範な実証的調査には、3 つのオプティマイザー、4 つのパラメータ化、いくつかのアライメント仮定、12 を超える学習率、および最大 268 億パラメータまでの 14 のモデル サイズのすべての組み合わせでトレーニングされた数万のモデルが含まれています。
最良の学習率スケーリング処方は、以前の研究では仮定によって除外されることが多かったことがわかります。
私たちの結果は、最大更新パラメータ化 (muP) だけでなく、すべてのパラメータ化でハイパーパラメータ転送を実現できることを示しています。
さらに、標準パラメータ化のための新しい層ごとの学習率の処方は、muP を上回ります。
最後に、パラメータ化の見落とされている側面である Adam のイプシロン パラメータを、勾配アンダーフローを回避するために正しくスケーリングする必要があることを実証し、イプシロン ハイパーパラメータを完全に排除した新しい数値的に安定したスケール不変の Adam バージョンである Adam-atan2 を提案します。

要約(オリジナル)

Robust and effective scaling of models from small to large width typically requires the precise adjustment of many algorithmic and architectural details, such as parameterization and optimizer choices. In this work, we propose a new perspective on parameterization by investigating a key assumption in prior work about the alignment between parameters and data and derive new theoretical results under weaker assumptions and a broader set of optimizers. Our extensive empirical investigation includes tens of thousands of models trained with all combinations of three optimizers, four parameterizations, several alignment assumptions, more than a dozen learning rates, and fourteen model sizes up to 26.8B parameters. We find that the best learning rate scaling prescription would often have been excluded by the assumptions in prior work. Our results show that all parameterizations, not just maximal update parameterization (muP), can achieve hyperparameter transfer; moreover, our novel per-layer learning rate prescription for standard parameterization outperforms muP. Finally, we demonstrate that an overlooked aspect of parameterization, the epsilon parameter in Adam, must be scaled correctly to avoid gradient underflow and propose Adam-atan2, a new numerically stable, scale-invariant version of Adam that eliminates the epsilon hyperparameter entirely.

arxiv情報

著者 Katie Everett,Lechao Xiao,Mitchell Wortsman,Alexander A. Alemi,Roman Novak,Peter J. Liu,Izzeddin Gur,Jascha Sohl-Dickstein,Leslie Pack Kaelbling,Jaehoon Lee,Jeffrey Pennington
発行日 2024-07-16 17:40:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク