CBQ: Cross-Block Quantization for Large Language Models

要約

ポストトレーニング量子化 (PTQ) は、大規模言語モデル (LLM) を超低コストで圧縮する上で重要な役割を果たしています。
ただし、既存の PTQ 手法は 1 つのレイヤーまたは 1 つのブロック内の外れ値の処理のみに焦点を当てているため、ブロックの依存関係が無視され、低ビット設定では重大なパフォーマンスの低下につながります。
本稿では、LLM 向けのクロスブロック再構成ベースの PTQ 手法である CBQ を提案します。
CBQ は相同再構成スキームを使用したブロック間依存関係を採用し、複数のブロックにわたる長距離依存関係を確立してエラーの蓄積を最小限に抑えます。
さらに、CBQ には、正確な重み量子化のための適応型 LoRA 丸め技術と組み合わせて、重みとアクティベーションの外れ値を抑制するための粗いから細かい前処理 (CFP) 戦略が組み込まれています。
これらの革新により、CBQ は極端な外れ値を効果的に処理できるだけでなく、全体的な量子化精度も向上させることができます。
広範な実験により、CBQ が優れた低ビット量子化 (W4A4、W4A8、W2A16) を実現し、さまざまな LLM およびデータセットにわたって既存の最先端の手法を上回るパフォーマンスを示すことが示されています。
特に、CBQ は 4 ビット LLAMA1-65B モデルを単一 GPU でわずか 4.3 時間以内に量子化し、パフォーマンスと量子化効率の間で賞賛に値するトレードオフを達成しています。

要約(オリジナル)

Post-training quantization (PTQ) has played a key role in compressing large language models (LLMs) with ultra-low costs. However, existing PTQ methods only focus on handling the outliers within one layer or one block, which ignores the dependency of blocks and leads to severe performance degradation in low-bit settings. In this paper, we propose CBQ, a cross-block reconstruction-based PTQ method for LLMs. CBQ employs a cross-block dependency using a homologous reconstruction scheme, establishing long-range dependencies across multiple blocks to minimize error accumulation. Furthermore, CBQ incorporates a coarse-to-fine preprocessing (CFP) strategy for suppressing weight and activation outliers, coupled with an adaptive LoRA-Rounding technique for precise weight quantization. These innovations enable CBQ to not only handle extreme outliers effectively but also improve overall quantization accuracy. Extensive experiments show that CBQ achieves superior low-bit quantization (W4A4, W4A8, W2A16) and outperforms existing state-of-the-art methods across various LLMs and datasets. Notably, CBQ quantizes the 4-bit LLAMA1-65B model within only 4.3 hours on a single GPU, achieving a commendable tradeoff between performance and quantization efficiency.

arxiv情報

著者 Xin Ding,Xiaoyu Liu,Zhijun Tu,Yun Zhang,Wei Li,Jie Hu,Hanting Chen,Yehui Tang,Zhiwei Xiong,Baoqun Yin,Yunhe Wang
発行日 2024-04-15 10:57:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク