要約
大規模言語モデル(LLM)の量子化は、特に効率的な低ビット表現を妨げる外れ値の活性化の存在により、大きな課題に直面している。従来のアプローチでは、全トークンにわたって比較的大きなアクティブ率を示すノーマル・アウトライヤに主に対処しています。しかし、これらの手法は、著しく大きな値を示すマッシブ・アウトライアの平滑化に苦戦しており、低ビット量子化における性能の大幅な低下を招いている。本論文では、マッシブ・アウトライヤとノーマル・アウトライヤの両方をより効果的に緩和するために回転と並べ替え変換を利用する新しいアプローチであるDuQuantを紹介する。まずDuQuantは、特定の外れ値の次元を事前知識として用いて回転行列を構築することから始め、ブロック単位の回転によって外れ値を隣接チャンネルに再分配する。次に、さらにジグザグ順列を採用してブロック間の外れ値の分布のバランスをとり、ブロックごとの分散を減らす。続く回転は活性化ランドスケープをさらに滑らかにし、モデルの性能を向上させます。DuQuantは量子化プロセスを単純化し、外れ値の管理に優れており、4ビットの重み活性化量子化でさえも、複数のタスクの様々なサイズとタイプのLLMにおいて、最先端のベースラインを凌駕している。我々のコードはhttps://github.com/Hsu1023/DuQuant。
要約(オリジナル)
Quantization of large language models (LLMs) faces significant challenges, particularly due to the presence of outlier activations that impede efficient low-bit representation. Traditional approaches predominantly address Normal Outliers, which are activations across all tokens with relatively large magnitudes. However, these methods struggle with smoothing Massive Outliers that display significantly larger values, which leads to significant performance degradation in low-bit quantization. In this paper, we introduce DuQuant, a novel approach that utilizes rotation and permutation transformations to more effectively mitigate both massive and normal outliers. First, DuQuant starts by constructing the rotation matrix, using specific outlier dimensions as prior knowledge, to redistribute outliers to adjacent channels by block-wise rotation. Second, We further employ a zigzag permutation to balance the distribution of outliers across blocks, thereby reducing block-wise variance. A subsequent rotation further smooths the activation landscape, enhancing model performance. DuQuant simplifies the quantization process and excels in managing outliers, outperforming the state-of-the-art baselines across various sizes and types of LLMs on multiple tasks, even with 4-bit weight-activation quantization. Our code is available at https://github.com/Hsu1023/DuQuant.
arxiv情報
著者 | Haokun Lin,Haobo Xu,Yichen Wu,Jingzhi Cui,Yingtao Zhang,Linzhan Mou,Linqi Song,Zhenan Sun,Ying Wei |
発行日 | 2024-11-01 17:12:53+00:00 |
arxivサイト | arxiv_id(pdf) |