GWQ: Gradient-Aware Weight Quantization for Large Language Models

要約

大規模な言語モデル(LLMS)は、複雑な言語タスクの解決において印象的なパフォーマンスを示しています。
ただし、その多数のパラメーターは、展開に大きな課題を示しています。
そのため、LLMSを低ビットに圧縮すると、リソースが制約のあるデバイスに展開できます。
この問題に対処するために、勾配を使用するための勾配を活用する低ビット重量量子化の最初の量子化アプローチであるグラジエントアウェア重量量子化(GWQ)を提案します。
GWQは、FP16精度で優先的に上位1 \%の外れ値を保持しますが、残りの非頻繁な重量は低ビットに保存されます。
言語モデリング、接地検出、大規模なマルチタスク言語の理解、視覚言語の質問、および回答など、さまざまなタスクでGWQを広く評価します。
結果は、GWQによって定量化されたモデルが他の量子化法よりも優れたパフォーマンスを示していることを示しています。
量子化プロセス中、GWQは効果的な量を実現するために1つのキャリブレーションセットのみが必要です。
また、GWQは、元のモデルと比較して1.2倍の推論スピードアップを達成し、推論メモリを効果的に削減します。

要約(オリジナル)

Large language models (LLMs) show impressive performance in solving complex language tasks. However, its large number of parameters presents significant challenges for the deployment. So, compressing LLMs to low bits can enable to deploy on resource-constrained devices. To address this problem, we propose gradient-aware weight quantization (GWQ), the first quantization approach for low-bit weight quantization that leverages gradients to localize outliers, requiring only a minimal amount of calibration data for outlier detection. GWQ retains the top 1\% outliers preferentially at FP16 precision, while the remaining non-outlier weights are stored in a low-bit. We widely evaluate GWQ on different task include language modeling, grounding detection, massive multitask language understanding and vision-language question and answering. Results show that models quantified by GWQ performs better than other quantization method. During quantization process, GWQ only need one calibration set to realize effective quant. Also, GWQ achieves 1.2x inference speedup in comparison to the original model and effectively reduces the inference memory.

arxiv情報

著者 Yihua Shao,Yan Gu,Siyu Chen,Haiyang Liu,Zijian Ling,Minxi Yan,Ziyang Yan,Chenyu Zhang,Michele Magno,Haotong Qin,Yan Wang,Jingcai Guo,Ling Shao,Hao Tang
発行日 2025-04-09 09:09:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク