Scissorhands: Exploiting the Persistence of Importance Hypothesis for LLM KV Cache Compression at Test Time


大規模言語モデル (LLM) は、エキサイティングな AI アプリケーションの新たな波を引き起こしました。
これらのモデルを大規模にホストするには、大量のメモリ リソースが必要です。
導入における重大なメモリ ボトルネックの 1 つは、コンテキスト ウィンドウに起因します。
ただし、生成プロセス中に保存されるキーと値の埋め込みのサイズ (KV キャッシュ) は、モデルのサイズを簡単に超える可能性があります。
KV キャッシュの巨大なサイズにより、推論バッチ サイズに制約が生じます。これは、高スループットの推論ワークロードにとって重要です。
この仮説に基づく経験的検証と理論分析に基づいて、モデルを微調整することなく KV キャッシュのメモリ使用量を固定予算で維持するシステムであるシザーハンズを提案します。
本質的に、シザーハンズは、より高い確率で重要なトークンを保存することによって KV キャッシュを管理します。
シザーハンズがモデルの品質を損なうことなく、KV キャッシュの推論メモリ使用量を最大 5 分の 1 に削減できることを検証します。
さらに、シザーハンズを、従来モデルの重みを圧縮するために使用されていた 4 ビット量子化と組み合わせて、最大 20 倍の圧縮を達成できることを実証します。


Large language models(LLMs) have sparked a new wave of exciting AI applications. Hosting these models at scale requires significant memory resources. One crucial memory bottleneck for the deployment stems from the context window. It is commonly recognized that model weights are memory hungry; however, the size of key-value embedding stored during the generation process (KV cache) can easily surpass the model size. The enormous size of the KV cache puts constraints on the inference batch size, which is crucial for high throughput inference workload. Inspired by an interesting observation of the attention scores, we hypothesize the persistence of importance: only pivotal tokens, which had a substantial influence at one step, will significantly influence future generations. Based on our empirical verification and theoretical analysis around this hypothesis, we propose Scissorhands, a system that maintains the memory usage of the KV cache at a fixed budget without finetuning the model. In essence, Scissorhands manages the KV cache by storing the pivotal tokens with a higher probability. We validate that Scissorhands reduces the inference memory usage of the KV cache by up to 5X without compromising model quality. We further demonstrate that Scissorhands can be combined with 4-bit quantization, traditionally used to compress model weights, to achieve up to 20X compression.


著者 Zichang Liu,Aditya Desai,Fangshuo Liao,Weitao Wang,Victor Xie,Zhaozhuo Xu,Anastasios Kyrillidis,Anshumali Shrivastava
発行日 2023-05-26 17:39:58+00:00
