KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization

要約

LLM は、大きなコンテキスト ウィンドウを必要とするドキュメント分析や要約などのアプリケーションでの使用が増加しています。これらの大きなコンテキスト ウィンドウでは、KV キャッシュのアクティブ化が推論中のメモリ消費の主な原因として表面化します。
量子化は、KV キャッシュ アクティベーションを圧縮するための有望なアプローチです。
ただし、既存のソリューションでは、サブ 4 ビットなどの超低精度ではアクティベーションを正確に表現できません。
この研究では、キャッシュされた KV アクティベーションを量子化する新しい方法を組み込むことでこの問題に対処する KVQuant を紹介します。 (i) チャネルごとのキー量子化。キー アクティベーションを量子化する次元を調整して、分布とよりよく一致させる
;
(ii) Pre-RoPE キー量子化。量子化への影響を軽減するために、回転位置埋め込みの前にキーのアクティブ化を量子化します。
(iii) 不均一 KV キャッシュ量子化。分布をよりよく表すレイヤーごとの感度で重み付けされた不均一データタイプを導出します。
(iv) ベクトルごとの密・疎量子化。ベクトルごとに外れ値を個別に分離して、量子化範囲の歪みを最小限に抑えます。
(v) Q-Norm。分布シフトを軽減するために量子化重心を正規化し、2 ビット量子化にさらなる利点をもたらします。
私たちの方法を LLaMA、LLaMA-2、および Mistral モデルに適用することにより、Wikitext-2 と C4 の両方で 3 ビット量子化による $<0.1$ の複雑さの低下を達成し、既存のアプローチを上回ります。 私たちの方法では、単一の A100-80GB GPU では最大 100 万、8-GPU システムでは最大 1,000 万のコンテキスト長で LLaMA-7B モデルを提供できます。

要約(オリジナル)

LLMs are seeing growing use for applications such as document analysis and summarization which require large context windows, and with these large context windows KV cache activations surface as the dominant contributor to memory consumption during inference. Quantization is a promising approach for compressing KV cache activations; however, existing solutions fail to represent activations accurately in ultra-low precisions, such as sub-4-bit. In this work, we present KVQuant, which addresses this problem by incorporating novel methods for quantizing cached KV activations, including: (i) Per-Channel Key Quantization, where we adjust the dimension along which we quantize the Key activations to better match the distribution; (ii) Pre-RoPE Key Quantization, where we quantize Key activations before the rotary positional embedding to mitigate its impact on quantization; (iii) Non-Uniform KV Cache Quantization, where we derive per-layer sensitivity-weighted non-uniform datatypes that better represent the distributions; (iv) Per-Vector Dense-and-Sparse Quantization, where we isolate outliers separately for each vector to minimize skews in quantization ranges; and (v) Q-Norm, where we normalize quantization centroids in order to mitigate distribution shift, providing additional benefits for 2-bit quantization. By applying our method to the LLaMA, LLaMA-2, and Mistral models, we achieve $<0.1$ perplexity degradation with 3-bit quantization on both Wikitext-2 and C4, outperforming existing approaches. Our method enables serving the LLaMA-7B model with a context length of up to 1 million on a single A100-80GB GPU and up to 10 million on an 8-GPU system.

arxiv情報

著者 Coleman Hooper,Sehoon Kim,Hiva Mohammadzadeh,Michael W. Mahoney,Yakun Sophia Shao,Kurt Keutzer,Amir Gholami
発行日 2024-01-31 18:58:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク