要約
Maximal Update Parametrization ($\mu$P) は、モデルの最適なハイパーパラメータ (HP) をそのサイズに依存させず、フルサイズのターゲット モデルではなく安価なプロキシ モデルを使用してスイープできるようにすることを目的としています。
我々は、低精度でのトレーニングを容易にするモデル設計方法であるユニット スケーリングと組み合わせることで $\mu$P を改良した新しいスキーム u-$\mu$P を紹介します。
2 つの手法には自然な親和性があります。$\mu$P はアクティベーションのスケールがモデル サイズに依存しないことを保証し、ユニット スケーリングはアクティベーション、重み、勾配が 1 のスケールでトレーニングを開始することを保証します。
この合成により、デフォルト値が最適に近い、より単純なスキームへの扉が開きます。
これにより、より効率的なスイープ戦略が促進され、u-$\mu$P モデルは同等の $\mu$P モデルよりも低い損失に達し、FP8 ですぐに使用できるようになります。
要約(オリジナル)
The Maximal Update Parametrization ($\mu$P) aims to make the optimal hyperparameters (HPs) of a model independent of its size, allowing them to be swept using a cheap proxy model rather than the full-size target model. We present a new scheme, u-$\mu$P, which improves upon $\mu$P by combining it with Unit Scaling, a method for designing models that makes them easy to train in low-precision. The two techniques have a natural affinity: $\mu$P ensures that the scale of activations is independent of model size, and Unit Scaling ensures that activations, weights and gradients begin training with a scale of one. This synthesis opens the door to a simpler scheme, whose default values are near-optimal. This in turn facilitates a more efficient sweeping strategy, with u-$\mu$P models reaching a lower loss than comparable $\mu$P models and working out-of-the-box in FP8.
arxiv情報
著者 | Charlie Blake,Constantin Eichenberg,Josef Dean,Lukas Balles,Luke Y. Prince,Björn Deiseroth,Andres Felipe Cruz-Salinas,Carlo Luschi,Samuel Weinbach,Douglas Orr |
発行日 | 2024-07-24 17:58:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google