要約
大規模言語モデル(Large Language Models: LLM)の人気が高まるにつれ、その効率的な展開を可能にする圧縮技術への関心が高まっている。本研究では、LLMの学習後量子化(Post-Training Quantization: PTQ)に焦点を当てる。最近の進歩から、個々のレイヤーが別々の量子化を受けるレイヤーごとの量子化フレームワークであるQuantEaseを導入する。この問題は離散構造化された非凸最適化として構成され、座標降下(CD)技術に根ざしたアルゴリズムの開発を促している。これらのCDに基づく手法は、複雑な非凸レイヤー単位の量子化問題に対して高品質な解を提供する。注目すべきは、我々のCDベースのアプローチは、行列とベクトル演算のみに依存し、行列の逆行列や分解の必要性を回避した、素直な更新を特徴としていることである。また、我々のアプローチの外れ値を考慮した変形を探求し、重要な重み(外れ値)を完全に正確に保持することを可能にする。我々の提案は、様々なLLMとデータセットにわたる経験的評価において、プレプレキシティとゼロショット精度の点で最先端の性能を達成し、GPTQのような手法と比較して最大15%の相対的改善を示した。QuantEaseは、注意深い線形代数の最適化を活用して、単一のNVIDIA A100 GPU上でFalcon-180Bのようなモデルを$sim$3時間で量子化することができます。特に注目すべきは、我々の外れ値認識アルゴリズムが、許容できる精度の低下で、LLMの3ビットに近い、あるいは3ビット以下の量子化を達成する能力を持っていることで、非均一量子化やグループ化技術の必要性を排除し、SpQRのような手法を、当惑度の点で最大2倍改善します。
要約(オリジナル)
With the rising popularity of Large Language Models (LLMs), there has been an increasing interest in compression techniques that enable their efficient deployment. This study focuses on the Post-Training Quantization (PTQ) of LLMs. Drawing from recent advances, our work introduces QuantEase, a layer-wise quantization framework where individual layers undergo separate quantization. The problem is framed as a discrete-structured non-convex optimization, prompting the development of algorithms rooted in Coordinate Descent (CD) techniques. These CD-based methods provide high-quality solutions to the complex non-convex layer-wise quantization problems. Notably, our CD-based approach features straightforward updates, relying solely on matrix and vector operations, circumventing the need for matrix inversion or decomposition. We also explore an outlier-aware variant of our approach, allowing for retaining significant weights (outliers) with complete precision. Our proposal attains state-of-the-art performance in terms of perplexity and zero-shot accuracy in empirical evaluations across various LLMs and datasets, with relative improvements up to 15% over methods such as GPTQ. Leveraging careful linear algebra optimizations, QuantEase can quantize models like Falcon-180B on a single NVIDIA A100 GPU in $\sim$3 hours. Particularly noteworthy is our outlier-aware algorithm’s capability to achieve near or sub-3-bit quantization of LLMs with an acceptable drop in accuracy, obviating the need for non-uniform quantization or grouping techniques, improving upon methods such as SpQR by up to two times in terms of perplexity.
arxiv情報
著者 | Kayhan Behdin,Ayan Acharya,Aman Gupta,Qingquan Song,Siyu Zhu,Sathiya Keerthi,Rahul Mazumder |
発行日 | 2023-12-01 07:04:05+00:00 |
arxivサイト | arxiv_id(pdf) |