要約
低精度の数値形式の使用を簡素化するディープ ラーニング モデルを設計するためのパラダイムであるユニット スケーリングを紹介します。
FP16 または最近提案された FP8 形式でのトレーニングは、大幅な効率向上を提供しますが、すぐに使えるトレーニングには十分な範囲が不足する可能性があります。
ユニット スケーリングは、モデルの数値計算に原則に基づいたアプローチを導入することでこれに対処します。つまり、初期化時にすべての重み、活性化、および勾配のユニット分散を求めます。
代替方法とは異なり、このアプローチは、適切なスケールを見つけるために複数のトレーニングを実行する必要がなく、計算上のオーバーヘッドも大きくありません。
さまざまなモデルとオプティマイザーでのユニット スケーリングの有効性を示します。
さらに、既存のモデルをユニットスケールに適合させ、精度を低下させることなく FP16 で BERT-Large をトレーニングし、次に FP8 でトレーニングできることを示します。
要約(オリジナル)
We present unit scaling, a paradigm for designing deep learning models that simplifies the use of low-precision number formats. Training in FP16 or the recently proposed FP8 formats offers substantial efficiency gains, but can lack sufficient range for out-of-the-box training. Unit scaling addresses this by introducing a principled approach to model numerics: seeking unit variance of all weights, activations and gradients at initialisation. Unlike alternative methods, this approach neither requires multiple training runs to find a suitable scale nor has significant computational overhead. We demonstrate the efficacy of unit scaling across a range of models and optimisers. We further show that existing models can be adapted to be unit-scaled, training BERT-Large in FP16 and then FP8 with no degradation in accuracy.
arxiv情報
著者 | Charlie Blake,Douglas Orr,Carlo Luschi |
発行日 | 2023-03-20 16:42:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google