要約
ディープ ニューラル ネットワーク (DNN) の導入は、高価な計算要件のため、より大型のハードウェア デバイスに限定されてきました。
最近、大規模言語モデル (LLM) の出現により、この課題は別の規模に達しています。
メモリ フットプリントとレイテンシの両方を削減するための有望な手法は量子化です。
これは、通常、規則的なグリッドへの均一なマッピングを仮定することによって、浮動小数点表現を低ビット幅の固定小数点表現に変換することから構成されます。
ただし、文献では均一量子化と呼ばれるこのプロセスは、ほとんどの DNN の重みとアクティベーションが釣鐘型の分布に従うため、不適切な可能性があります。
これは、重み分布が大きく影響力の大きい外れ値を示すことが知られている LLM ではさらに悪化します。
この研究では、深層学習モデルの量子化におけるこの制限に対処するために最も一般的に採用されている方法、つまり不均一量子化に対する改善を提案します。
NUPES は自己同型を利用してスカラー乗算を保存します。
このような変換はべき乗関数から導出されます。
ただし、指数パラメータと重み値の最適化は依然として挑戦的で新しい問題であり、予測関数を維持するために重み値を切り上げまたは切り下げることのみを学習する以前のトレーニング後の最適化手法では解決できませんでした。
私たちは、量子化された空間全体にわたって新しい量子化された重みを学習するという新しいパラダイムでこの制限を回避します。
同様に、すべての数値的不安定性を軽減することにより、べき乗指数の最適化、つまりトレーニング中の量子化演算子自体の最適化が可能になります。
結果として得られる予測関数は、整数のみの下位ビット推論と互換性があります。
データフリー構成とデータドリブン構成の両方で最先端の圧縮率を達成するこの方法の能力を示します。
要約(オリジナル)
Deep neural network (DNN) deployment has been confined to larger hardware devices due to their expensive computational requirements. This challenge has recently reached another scale with the emergence of large language models (LLMs). In order to reduce both their memory footprint and latency, a promising technique is quantization. It consists in converting floating point representations to low bit-width fixed point representations, usually by assuming a uniform mapping onto a regular grid. This process, referred to in the literature as uniform quantization, may however be ill-suited as most DNN weights and activations follow a bell-shaped distribution. This is even worse on LLMs whose weight distributions are known to exhibit large, high impact, outlier values. In this work, we propose an improvement over the most commonly adopted way to tackle this limitation in deep learning models quantization, namely, non-uniform quantization. NUPES leverages automorphisms to preserve the scalar multiplications. Such transformations are derived from power functions. However, the optimization of the exponent parameter and weight values remains a challenging and novel problem which could not be solved with previous post training optimization techniques which only learn to round up or down weight values in order to preserve the predictive function. We circumvent this limitation with a new paradigm: learning new quantized weights over the entire quantized space. Similarly, we enable the optimization of the power exponent, i.e. the optimization of the quantization operator itself during training by alleviating all the numerical instabilities. The resulting predictive function is compatible with integer-only low-bit inference. We show the ability of the method to achieve state-of-the-art compression rates in both, data-free and data-driven configurations.
arxiv情報
著者 | Edouard Yvinec,Arnaud Dapogny,Kevin Bailly |
発行日 | 2023-08-10 14:19:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google