GPTVQ: The Blessing of Dimensionality for LLM Quantization

要約

この研究では、ニューラル ネットワークの量子化のサイズと精度のトレードオフが、量子化の次元を増やすことで大幅に改善できることを示します。
我々は、大規模言語モデル (LLM) に適切に拡張できる、トレーニング後のベクトル量子化 (VQ) のための新しい高速手法である GPTVQ メソッドを提案します。
私たちの方法では、レイヤーごとの出力再構成 MSE のヘシアンからの情報を使用して、1 つ以上の列の量子化と残りの量子化されていない重みの更新をインターリーブします。
量子化コードブックは、EM アルゴリズムの効率的なデータ認識バージョンを使用して初期化されます。
その後、コードブックが更新され、整数量子化と SVD ベースの圧縮を使用してさらに圧縮されます。
GPTVQ は、Llama-v2 や Mistral などの幅広い LLM でのサイズと精度のトレードオフにおける新しい最先端技術を確立します。
さらに、私たちの方法は効率的です。単一の H100 では、量子化設定に応じて、Llamav2-70B モデルの処理に 3 ~ 11 時間かかります。
最後に、モバイル CPU での VQ 解凍のオンデバイス タイミングを使用して、VQ が 4 ビット整数形式を使用する場合と比較して遅延の改善につながることを示します。

要約(オリジナル)

In this work we show that the size versus accuracy trade-off of neural network quantization can be significantly improved by increasing the quantization dimensionality. We propose the GPTVQ method, a new fast method for post-training vector quantization (VQ) that scales well to Large Language Models (LLMs). Our method interleaves quantization of one or more columns with updates to the remaining unquantized weights, using information from the Hessian of the per-layer output reconstruction MSE. Quantization codebooks are initialized using an efficient data-aware version of the EM algorithm. The codebooks are then updated, and further compressed by using integer quantization and SVD-based compression. GPTVQ establishes a new state-of-the art in the size vs accuracy trade-offs on a wide range of LLMs such as Llama-v2 and Mistral. Furthermore, our method is efficient: on a single H100 it takes between 3 and 11 hours to process a Llamav2-70B model, depending on quantization setting. Lastly, with on-device timings for VQ decompression on a mobile CPU we show that VQ leads to improved latency compared to using a 4-bit integer format.

arxiv情報

著者 Mart van Baalen,Andrey Kuzmin,Markus Nagel,Peter Couperus,Cedric Bastoul,Eric Mahurin,Tijmen Blankevoort,Paul Whatmough
発行日 2024-02-23 13:39:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク