BiSup: Bidirectional Quantization Error Suppression for Large Language Models

要約

大規模言語モデル (LLM) のサイズとコンテキストの長さが増大するにつれて、加重アクティベーション量子化は、LLM を効率的に展開するための重要な手法として浮上しています。
重みのみの量子化と比較して、重みアクティベーション量子化には、アクティベーションに異常値が存在するため、より大きな課題が生じます。
既存の手法は、混合精度の量子化と外れ値の抑制を探求することによって大幅に進歩しました。
ただし、これらの方法は主に単一行列の乗算の結果を最適化することに焦点を当てており、LLM での量子化誤差の双方向伝播は無視されています。
具体的には、エラーはレイヤーを介して同じトークン内で垂直方向に蓄積され、セルフアテンション メカニズムにより異なるトークン間で水平方向に拡散します。
この問題に対処するために、双方向量子化誤差抑制方法である BiSup を導入します。
BiSup は、適切な最適化可能なパラメータ空間を構築することにより、量子化を意識したパラメータ効率の良い微調整に少量のデータを利用して、誤差の垂直累積を抑制します。
さらに、BiSup はプロンプト混合精度量子化戦略を採用しており、システム プロンプトのキーと値のキャッシュの高精度を維持して、エラーの水平方向の拡散を軽減します。
Llama および Qwen ファミリに関する広範な実験により、BiSup が 2 つの最先端の方法よりもパフォーマンスを向上できることが実証されました (W3A3-g128 構成では、WikiText2 の平均パープレキシティが Atom で 13.26 か​​ら 9.41 に、QuaRot で 14.33 から 7.85 に減少しました)。
これにより、低ビット重み付けアクティベーション量子化の実際の応用がさらに容易になります。

要約(オリジナル)

As the size and context length of Large Language Models (LLMs) grow, weight-activation quantization has emerged as a crucial technique for efficient deployment of LLMs. Compared to weight-only quantization, weight-activation quantization presents greater challenges due to the presence of outliers in activations. Existing methods have made significant progress by exploring mixed-precision quantization and outlier suppression. However, these methods primarily focus on optimizing the results of single matrix multiplication, neglecting the bidirectional propagation of quantization errors in LLMs. Specifically, errors accumulate vertically within the same token through layers, and diffuse horizontally across different tokens due to self-attention mechanisms. To address this issue, we introduce BiSup, a Bidirectional quantization error Suppression method. By constructing appropriate optimizable parameter spaces, BiSup utilizes a small amount of data for quantization-aware parameter-efficient fine-tuning to suppress the error vertical accumulation. Besides, BiSup employs prompt mixed-precision quantization strategy, which preserves high precision for the key-value cache of system prompts, to mitigate the error horizontal diffusion. Extensive experiments on Llama and Qwen families demonstrate that BiSup can improve performance over two state-of-the-art methods (the average WikiText2 perplexity decreases from 13.26 to 9.41 for Atom and from 14.33 to 7.85 for QuaRot under the W3A3-g128 configuration), further facilitating the practical applications of low-bit weight-activation quantization.

arxiv情報

著者 Minghui Zou,Ronghui Guo,Sai Zhang,Xiaowang Zhang,Zhiyong Feng
発行日 2024-05-24 08:39:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク