CBQ: Cross-Block Quantization for Large Language Models

要約

ポストトレーニング量子化 (PTQ) により、超低コストで効率的な大規模言語モデル (LLM) を生成することが注目されています。
量子化パラメータを手作業で作成すると、低ビット量子化のパフォーマンスが低下するため、最近の手法では、浮動小数点モデルと量子化モデルの間でブロックごとの再構成を通じて量子化パラメータを最適化しています。
ただし、これらの方法には 2 つの課題があります。1 つずつ独立したブロックの量子化による累積誤差と、極端な重みとアクティベーションの外れ値による再構成の困難です。
これら 2 つの課題に対処するために、LLM 向けのクロスブロック再構成ベースの PTQ 手法である CBQ を提案します。
エラーの蓄積を減らすために、相同再構成スキームを利用してブロック間の依存関係を導入し、重複する隣接するマルチブロック間の長距離依存関係を構築します。
再構成の難易度を下げるために、最適化の前に重みの外れ値を切り捨て、活性化の外れ値を動的にスケーリングする粗密前処理 (CFP) と、2 つの低ランクの学習可能な行列を備えた LoRA-Rounding と呼ばれる適応丸めスキームを設計します。
重みの量子化エラーをさらに修正します。
広範な実験により、次のことが実証されました。 (1) CBQ は、アクティベーションと重み量子化の両方を低ビット設定 W4A4、W4A8、および W2A16 にプッシュします。
(2) CBQ は、さまざまな LLM およびベンチマーク データセット上で、既存の最先端の手法よりも優れたパフォーマンスを実現します。

要約(オリジナル)

Post-training quantization (PTQ) has driven attention to producing efficient large language models (LLMs) with ultra-low costs. Since hand-craft quantization parameters lead to low performance in low-bit quantization, recent methods optimize the quantization parameters through block-wise reconstruction between the floating-point and quantized models. However, these methods suffer from two challenges: accumulated errors from independent one-by-one block quantization and reconstruction difficulties from extreme weight and activation outliers. To address these two challenges, we propose CBQ, a cross-block reconstruction-based PTQ method for LLMs. To reduce error accumulation, we introduce a cross-block dependency with the aid of a homologous reconstruction scheme to build the long-range dependency between adjacent multi-blocks with overlapping. To reduce reconstruction difficulty, we design a coarse-to-fine pre-processing (CFP) to truncate weight outliers and dynamically scale activation outliers before optimization, and an adaptive rounding scheme, called LoRA-Rounding, with two low-rank learnable matrixes to further rectify weight quantization errors. Extensive experiments demonstrate that: (1) CBQ pushes both activation and weight quantization to low-bit settings W4A4, W4A8, and W2A16. (2) CBQ achieves better performance than the existing state-of-the-art methods on various LLMs and benchmark datasets.

arxiv情報

著者 Xin Ding,Xiaoyu Liu,Yun Zhang,Zhijun Tu,Wei Li,Jie Hu,Hanting Chen,Yehui Tang,Zhiwei Xiong,Baoqun Yin,Yunhe Wang
発行日 2023-12-13 07:56:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク