Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization

要約

ここでは、重みと活性度の両方が、GPUハードウェアでネイティブにサポートされている最小ビット幅フォーマットである、パラメータあたり4ビットに一様に量子化されます。この文脈では、重要な課題は活性化の量子化です。言語モデルには、平均値が他のチャンネルよりも桁違いに高い異常値チャンネルが含まれていることが知られており、既知の手法では低ビット幅の正確な量子化ができません。我々はこの現象を系統的に研究し、これらの異常値チャンネルは学習の初期に出現し、残差ストリームを持つ層でより頻繁に発生することを発見した。次に、量子化を考慮した訓練(QAT)によりレイヤーの入力を正則化し、活性化尖度正則化により出力を正則化する簡単な戦略を提案する。入力と出力の両方を正則化することは、モデルが入力の量子化の難しさを重みに「移行」させることを防ぐために重要であり、重みの訓練後量子化(PTQ)をより難しくすることを示す。重みのPTQと組み合わせることで、我々のアプローチが、標準精度のW16A16ベースラインと競合する性能を持つW4A4モデルを得ることができることを示す。

要約(オリジナル)

We consider the problem of accurate quantization for language models, where both the weights and activations are uniformly quantized to 4 bits per parameter, the lowest bitwidth format natively supported by GPU hardware. In this context, the key challenge is activation quantization: it is known that language models contain outlier channels whose values on average are orders of magnitude higher than than other channels, which prevents accurate low-bitwidth quantization with known techniques. We systematically study this phenomena and find that these outlier channels emerge early in training, and that they occur more frequently in layers with residual streams. We then propose a simple strategy which regularizes a layer’s inputs via quantization-aware training (QAT) and its outputs via activation kurtosis regularization. We show that regularizing both the inputs and outputs is crucial for preventing a model’s ‘migrating’ the difficulty in input quantization to the weights, which makes post-training quantization (PTQ) of weights more difficult. When combined with weight PTQ, we show that our approach can obtain a W4A4 model that performs competitively to the standard-precision W16A16 baseline.

arxiv情報

著者 Aniruddha Nrusimha,Mayank Mishra,Naigang Wang,Dan Alistarh,Rameswar Panda,Yoon Kim
発行日 2024-04-04 17:25:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク