Unit Scaling: Out-of-the-Box Low-Precision Training

要約

低精度の数値形式の使用を簡素化するディープ ラーニング モデルを設計するためのパラダイムであるユニット スケーリングを紹介します。
FP16 または最近提案された FP8 形式でのトレーニングは、大幅な効率向上を提供しますが、すぐに使えるトレーニングには十分な範囲が不足する可能性があります。
ユニット スケーリングは、モデルの数値計算に原則に基づいたアプローチを導入することでこれに対処します。つまり、初期化時にすべての重み、活性化、および勾配のユニット分散を求めます。
代替方法とは異なり、このアプローチは、適切なスケールを見つけるために複数のトレーニングを実行する必要がなく、計算上のオーバーヘッドも大きくありません。
さまざまなモデルとオプティマイザーでのユニット スケーリングの有効性を示します。
さらに、既存のモデルをユニットスケールに適合させ、精度を低下させることなく FP16 で BERT-Large をトレーニングし、次に FP8 でトレーニングできることを示します。

要約(オリジナル)

We present unit scaling, a paradigm for designing deep learning models that simplifies the use of low-precision number formats. Training in FP16 or the recently proposed FP8 formats offers substantial efficiency gains, but can lack sufficient range for out-of-the-box training. Unit scaling addresses this by introducing a principled approach to model numerics: seeking unit variance of all weights, activations and gradients at initialisation. Unlike alternative methods, this approach neither requires multiple training runs to find a suitable scale nor has significant computational overhead. We demonstrate the efficacy of unit scaling across a range of models and optimisers. We further show that existing models can be adapted to be unit-scaled, training BERT-Large in FP16 and then FP8 with no degradation in accuracy.

arxiv情報

著者 Charlie Blake,Douglas Orr,Carlo Luschi
発行日 2023-03-20 16:42:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク