GANQ: GPU-Adaptive Non-Uniform Quantization for Large Language Models

要約

大規模言語モデル (LLM) は、大量のリソース要件が原因で、導入に重大な課題に直面しています。
低ビット量子化重みはメモリ使用量を削減し、推論効率を向上させることができますが、現在のハードウェアには混合精度の一般行列乗算 (mpGEMM) のネイティブサポートがないため、逆量子化ベースの実装が非効率になります。
さらに、均一な量子化方法では重み分布を適切に捕捉できないことが多く、パフォーマンスの低下につながります。
我々は、ハードウェア効率の高いルックアップテーブルベースの mpGEMM 用に最適化された層ごとのトレーニング後の不均一量子化フレームワークである GANQ (GPU 適応型不均一量子化) を提案します。
GANQ は、トレーニング不要の GPU 適応最適化アルゴリズムを利用して、レイヤーごとの量子化エラーを効率的に削減することで、優れた量子化パフォーマンスを実現します。
広範な実験により、3 ビット量子化と 4 ビット量子化の両方について、最先端の方法と比較して、FP16 ベースラインからの複雑さのギャップを削減する GANQ の能力が実証されました。
さらに、単一の NVIDIA RTX 4090 GPU に展開すると、GANQ の量子化モデルはベースラインに比べて最大 2.57$\times$ の高速化を達成し、LLM 導入におけるメモリと推論の効率が向上します。

要約(オリジナル)

Large Language Models (LLMs) face significant deployment challenges due to their substantial resource requirements. While low-bit quantized weights can reduce memory usage and improve inference efficiency, current hardware lacks native support for mixed-precision General Matrix Multiplication (mpGEMM), resulting in inefficient dequantization-based implementations. Moreover, uniform quantization methods often fail to capture weight distributions adequately, leading to performance degradation. We propose GANQ (GPU-Adaptive Non-Uniform Quantization), a layer-wise post-training non-uniform quantization framework optimized for hardware-efficient lookup table-based mpGEMM. GANQ achieves superior quantization performance by utilizing a training-free, GPU-adaptive optimization algorithm to efficiently reduce layer-wise quantization errors. Extensive experiments demonstrate GANQ’s ability to reduce the perplexity gap from the FP16 baseline compared to state-of-the-art methods for both 3-bit and 4-bit quantization. Furthermore, when deployed on a single NVIDIA RTX 4090 GPU, GANQ’s quantized models achieve up to 2.57$\times$ speedup over the baseline, advancing memory and inference efficiency in LLM deployment.

arxiv情報

著者	Pengxiang Zhao,Xiaoming Yuan
発行日	2025-01-22 15:29:09+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

GANQ: GPU-Adaptive Non-Uniform Quantization for Large Language Models

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー