GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless Generative Inference of LLM

要約

キー値 (KV) キャッシュは、大規模言語モデル (LLM) 推論の生成速度を高速化するための事実上の事実になっています。
ただし、シーケンス長の増加に伴うキャッシュ需要の増大により、LLM 推論がメモリ制限の問題に変わり、システムのスループットが大幅に制限されます。
既存の方法は、重要でないトークンを削除するか、すべてのエントリを均一に量子化することに依存しています。
ただし、このような方法では、圧縮された行列を表すために大きな近似誤差が発生することがよくあります。
自己回帰デコード プロセスにより各ステップのエラーがさらに複雑になり、モデル生成に重大な逸脱が発生し、パフォーマンスが低下します。
この課題に取り組むために、私たちは、ほぼロスレスの高比率圧縮を実現する効率的な KV キャッシュ圧縮フレームワークである GEAR を提案します。
GEAR はまず、同様の大きさのエントリの大部分に超低精度で量子化を適用します。
次に、低ランク行列を使用して量子化誤差を近似し、スパース行列を使用して外れ値エントリからの個々の誤差を修正します。
3 つの技術を適切に統合することにより、GEAR はそれらの相乗効果の可能性を最大限に活用することができます。
私たちの実験では、代替製品と比較して、GEAR がほぼロスレスの 4 ビット KV キャッシュ圧縮を実現し、最大 2.38 倍のスループット向上を実現しながら、ピーク メモリ サイズを最大 2.29 倍に削減できることを示しています。
私たちのコードは https://github.com/HaoKang-Timmy/GEAR で公開されています。

要約(オリジナル)

Key-value (KV) caching has become the de-facto to accelerate generation speed for large language models (LLMs) inference. However, the growing cache demand with increasing sequence length has transformed LLM inference to be a memory bound problem, significantly constraining the system throughput. Existing methods rely on dropping unimportant tokens or quantizing all entries uniformly. Such methods, however, often incur high approximation errors to represent the compressed matrices. The autoregressive decoding process further compounds the error of each step, resulting in critical deviation in model generation and deterioration of performance. To tackle this challenge, we propose GEAR, an efficient KV cache compression framework that achieves near-lossless high-ratio compression. GEAR first applies quantization to majority of entries of similar magnitudes to ultra-low precision. It then employs a low rank matrix to approximate the quantization error, and a sparse matrix to remedy individual errors from outlier entries. By adeptly integrating three techniques, GEAR is able to fully exploit their synergistic potentials. Our experiments demonstrate that compared to alternatives, GEAR achieves near-lossless 4-bit KV cache compression with up to 2.38x throughput improvement, while reducing peak-memory size up to 2.29x. Our code is publicly available at https://github.com/HaoKang-Timmy/GEAR.

arxiv情報

著者 Hao Kang,Qingru Zhang,Souvik Kundu,Geonhwa Jeong,Zaoxing Liu,Tushar Krishna,Tuo Zhao
発行日 2024-08-29 16:48:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク