CBQ: Cross-Block Quantization for Large Language Models


ポストトレーニング量子化 (PTQ) により、超低コストで効率的な大規模言語モデル (LLM) を生成することが注目されています。
ただし、これらの方法には 2 つの課題があります。1 つずつ独立したブロックの量子化による累積誤差と、極端な重みとアクティベーションの外れ値による再構成の困難です。
これら 2 つの課題に対処するために、LLM 向けのクロスブロック再構成ベースの PTQ 手法である CBQ を提案します。
再構成の難易度を下げるために、最適化の前に重みの外れ値を切り捨て、活性化の外れ値を動的にスケーリングする粗密前処理 (CFP) と、2 つの低ランクの学習可能な行列を備えた LoRA-Rounding と呼ばれる適応丸めスキームを設計します。
広範な実験により、次のことが実証されました。 (1) CBQ は、アクティベーションと重み量子化の両方を低ビット設定 W4A4、W4A8、および W2A16 にプッシュします。
(2) CBQ は、さまざまな LLM およびベンチマーク データセット上で、既存の最先端の手法よりも優れたパフォーマンスを実現します。


Post-training quantization (PTQ) has driven attention to producing efficient large language models (LLMs) with ultra-low costs. Since hand-craft quantization parameters lead to low performance in low-bit quantization, recent methods optimize the quantization parameters through block-wise reconstruction between the floating-point and quantized models. However, these methods suffer from two challenges: accumulated errors from independent one-by-one block quantization and reconstruction difficulties from extreme weight and activation outliers. To address these two challenges, we propose CBQ, a cross-block reconstruction-based PTQ method for LLMs. To reduce error accumulation, we introduce a cross-block dependency with the aid of a homologous reconstruction scheme to build the long-range dependency between adjacent multi-blocks with overlapping. To reduce reconstruction difficulty, we design a coarse-to-fine pre-processing (CFP) to truncate weight outliers and dynamically scale activation outliers before optimization, and an adaptive rounding scheme, called LoRA-Rounding, with two low-rank learnable matrixes to further rectify weight quantization errors. Extensive experiments demonstrate that: (1) CBQ pushes both activation and weight quantization to low-bit settings W4A4, W4A8, and W2A16. (2) CBQ achieves better performance than the existing state-of-the-art methods on various LLMs and benchmark datasets.


著者 Xin Ding,Xiaoyu Liu,Yun Zhang,Zhijun Tu,Wei Li,Jie Hu,Hanting Chen,Yehui Tang,Zhiwei Xiong,Baoqun Yin,Yunhe Wang
発行日 2023-12-13 07:56:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク