要約
大規模言語モデル(LLM)は、様々なタスクで優れた性能を発揮するが、メモリ容量や帯域幅の制限による導入上の課題に直面している。低ビット量子化は、メモリを節約し、推論を高速化することができる。浮動小数点(FP)フォーマットはLLMの量子化において良好な性能を示すが、グループサイズが小さい場合や4ビット以下の場合は性能が低下する傾向がある。その理由は、従来のFP量子化には非対称性がないため、LLM重みテンソルの非対称な値分布を扱うのに適していないためである。本研究では、正と負の値に別々のスケールを設定する非対称FP量子化(AFPQ)を提案する。我々の手法は大きな精度向上をもたらし、GPTQやAWQを含む他の量子化手法に容易にプラグインすることができる。さらに、非対称整数(INT)量子化と比較して、追加のストレージは必要ありません。コードはhttps://github.com/zhangsichengsjtu/AFPQ。
要約(オリジナル)
Large language models (LLMs) show great performance in various tasks, but face deployment challenges from limited memory capacity and bandwidth. Low-bit weight quantization can save memory and accelerate inference. Although floating-point (FP) formats show good performance in LLM quantization, they tend to perform poorly with small group sizes or sub-4 bits. We find the reason is that the absence of asymmetry in previous FP quantization makes it unsuitable for handling asymmetric value distribution of LLM weight tensors. In this work, we propose asymmetric FP quantization (AFPQ), which sets separate scales for positive and negative values. Our method leads to large accuracy improvements and can be easily plugged into other quantization methods, including GPTQ and AWQ, for better performance. Besides, no additional storage is needed compared with asymmetric integer (INT) quantization. The code is available at https://github.com/zhangsichengsjtu/AFPQ.
arxiv情報
著者 | Yijia Zhang,Sicheng Zhang,Shijie Cao,Dayou Du,Jianyu Wei,Ting Cao,Ningyi Xu |
発行日 | 2023-11-03 09:07:09+00:00 |
arxivサイト | arxiv_id(pdf) |