QuantEase: Optimization-based Quantization for Language Models — An Efficient and Intuitive Algorithm

要約

大規模言語モデル (LLM) の人気が高まるにつれて、その効率的な展開を可能にする圧縮技術への関心が高まっています。
この研究は、LLM のトレーニング後量子化 (PTQ) に焦点を当てています。
最近の進歩を活用して、私たちの研究では、個々のレイヤーが個別に量子化されるレイヤーごとの量子化フレームワークである QuantEase を導入しました。
この問題は離散構造の非凸最適化として枠組み化されており、座標降下法 (CD) 技術に根ざしたアルゴリズムの開発が促されています。
これらの CD ベースの方法は、複雑な非凸層ごとの量子化問題に対する高品質のソリューションを提供します。
特に、CD ベースのアプローチは、行列とベクトルの演算のみに依存する単純な更新を特徴としており、行列の反転や分解の必要性を回避します。
また、外れ値を認識したアプローチの変形も検討し、重要な重み (外れ値) を完全な精度で保持できるようにします。
私たちの提案は、さまざまな LLM およびデータセットにわたる経験的評価において、複雑性とゼロショット精度の点で最先端のパフォーマンスを達成し、GPTQ などの方法と比較して最大 15% の相対的な向上を実現します。
特に注目に値するのは、外れ値を認識したアルゴリズムの機能で、許容できる精度の低下で LLM の 3 ビットに近い量子化または 3 ビット未満の量子化を達成し、不均一な量子化またはグループ化技術の必要性を回避し、SpQR などの方法を最大 2 ビット改善します。
困惑の点で 1 倍。

要約(オリジナル)

With the rising popularity of Large Language Models (LLMs), there has been an increasing interest in compression techniques that enable their efficient deployment. This study focuses on the Post-Training Quantization (PTQ) of LLMs. Drawing from recent advances, our work introduces QuantEase, a layer-wise quantization framework where individual layers undergo separate quantization. The problem is framed as a discrete-structured non-convex optimization, prompting the development of algorithms rooted in Coordinate Descent (CD) techniques. These CD-based methods provide high-quality solutions to the complex non-convex layer-wise quantization problems. Notably, our CD-based approach features straightforward updates, relying solely on matrix and vector operations, circumventing the need for matrix inversion or decomposition. We also explore an outlier-aware variant of our approach, allowing for retaining significant weights (outliers) with complete precision. Our proposal attains state-of-the-art performance in terms of perplexity and zero-shot accuracy in empirical evaluations across various LLMs and datasets, with relative improvements up to 15% over methods such as GPTQ. Particularly noteworthy is our outlier-aware algorithm’s capability to achieve near or sub-3-bit quantization of LLMs with an acceptable drop in accuracy, obviating the need for non-uniform quantization or grouping techniques, improving upon methods such as SpQR by up to two times in terms of perplexity.

arxiv情報

著者 Kayhan Behdin,Ayan Acharya,Aman Gupta,Sathiya Keerthi,Rahul Mazumder
発行日 2023-09-05 01:39:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML パーマリンク