Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression

要約

Key-Value (KV) キャッシュは、大規模言語モデル (LLM) の推論を高速化する重要な手法ですが、かなりのメモリ オーバーヘッドが発生します。
KV キャッシュのサイズを圧縮するために、既存の方法では精度が犠牲になったり、キャリブレーションに追加のデータが必要になったりすることが多く、LLM 導入における実用性が制限されています。
この論文では、KV キャッシュを効率的に圧縮するための、テンソル分解法に基づく新しいデータフリーの低ビット量子化手法である \textbf{DecoQuant} を紹介します。
私たちの中心的なアイデアは、テンソル分解を実行することで元の行列の外れ値の分布を調整し、量子化の困難が行列から分解されたローカル テンソルに移行されるようにすることです。
特に、外れ値は主に小さな局所テンソルに集中しているのに対し、大きなテンソルは値の範囲が狭い傾向があることがわかります。
この発見に基づいて、小さなテンソルの高精度表現を維持しながら、大きなテンソルに低ビット量子化を適用することを提案します。
さらに、提案された量子化方法を利用して LLM の KV キャッシュを圧縮し、推論を高速化し、特に DecoQuant に合わせた効率的な逆量子化カーネルを開発します。
広範な実験を通じて、DecoQuant は顕著な効率の向上を実証し、同等の生成品質を維持しながらメモリ フットプリントを最大 $\sim$75\% 削減することを示しました。

要約(オリジナル)

Key-value~(KV) caching is an important technique to accelerate the inference of large language models~(LLMs), but incurs significant memory overhead. To compress the size of KV cache, existing methods often compromise precision or require extra data for calibration, limiting their practicality in LLM deployment. In this paper, we introduce \textbf{DecoQuant}, a novel data-free low-bit quantization technique based on tensor decomposition methods, to effectively compress KV cache. Our core idea is to adjust the outlier distribution of the original matrix by performing tensor decomposition, so that the quantization difficulties are migrated from the matrix to decomposed local tensors. Specially, we find that outliers mainly concentrate on small local tensors, while large tensors tend to have a narrower value range. Based on this finding, we propose to apply low-bit quantization to the large tensor, while maintaining high-precision representation for the small tensor. Furthermore, we utilize the proposed quantization method to compress the KV cache of LLMs to accelerate the inference and develop an efficient dequantization kernel tailored specifically for DecoQuant. Through extensive experiments, DecoQuant demonstrates remarkable efficiency gains, showcasing up to a $\sim$75\% reduction in memory footprint while maintaining comparable generation quality.

arxiv情報

著者 Peiyu Liu,Ze-Feng Gao,Wayne Xin Zhao,Yipeng Ma,Tao Wang,Ji-Rong Wen
発行日 2024-05-21 08:35:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク