u-$μ$P: The Unit-Scaled Maximal Update Parametrization

要約

Maximal Update Parametrization ($\mu$P) は、モデルの最適なハイパーパラメータ (HP) をそのサイズに依存させず、フルサイズのターゲット モデルではなく安価なプロキシ モデルを使用してスイープできるようにすることを目的としています。
我々は、低精度でのトレーニングを容易にするモデル設計方法であるユニット スケーリングと組み合わせることで $\mu$P を改良した新しいスキーム u-$\mu$P を紹介します。
2 つの手法には自然な親和性があります。$\mu$P はアクティベーションのスケールがモデル サイズに依存しないことを保証し、ユニット スケーリングはアクティベーション、重み、勾配が 1 のスケールでトレーニングを開始することを保証します。
この合成により、デフォルト値が最適に近い、より単純なスキームへの扉が開きます。
これにより、より効率的なスイープ戦略が促進され、u-$\mu$P モデルは同等の $\mu$P モデルよりも低い損失に達し、FP8 ですぐに使用できるようになります。

要約(オリジナル)

The Maximal Update Parametrization ($\mu$P) aims to make the optimal hyperparameters (HPs) of a model independent of its size, allowing them to be swept using a cheap proxy model rather than the full-size target model. We present a new scheme, u-$\mu$P, which improves upon $\mu$P by combining it with Unit Scaling, a method for designing models that makes them easy to train in low-precision. The two techniques have a natural affinity: $\mu$P ensures that the scale of activations is independent of model size, and Unit Scaling ensures that activations, weights and gradients begin training with a scale of one. This synthesis opens the door to a simpler scheme, whose default values are near-optimal. This in turn facilitates a more efficient sweeping strategy, with u-$\mu$P models reaching a lower loss than comparable $\mu$P models and working out-of-the-box in FP8.

arxiv情報

著者 Charlie Blake,Constantin Eichenberg,Josef Dean,Lukas Balles,Luke Y. Prince,Björn Deiseroth,Andres Felipe Cruz-Salinas,Carlo Luschi,Samuel Weinbach,Douglas Orr
発行日 2024-07-24 17:58:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク