Scissorhands: Exploiting the Persistence of Importance Hypothesis for LLM KV Cache Compression at Test Time

要約

大規模言語モデル (LLM) は、エキサイティングな AI アプリケーションの新たな波を引き起こしました。
これらのモデルを大規模にホストするには、大量のメモリ リソースが必要です。
導入における重大なメモリ ボトルネックの 1 つは、コンテキスト ウィンドウに起因します。
モデルの重みがメモリを大量に消費することは一般に認識されています。
ただし、生成プロセス中に保存されるキーと値の埋め込みのサイズ (KV キャッシュ) は、モデルのサイズを簡単に超える可能性があります。
KV キャッシュの巨大なサイズにより、推論バッチ サイズに制約が生じます。これは、高スループットの推論ワークロードにとって重要です。
注意スコアの興味深い観察に触発されて、私たちは重要性の持続性を仮説化します。ある段階で大きな影響を与えた極めて重要なトークンだけが、将来の世代に大きな影響を与えるのです。
この仮説に基づく経験的検証と理論分析に基づいて、モデルを微調整することなく KV キャッシュのメモリ使用量を固定予算で維持するシステムであるシザーハンズを提案します。
本質的に、シザーハンズは、より高い確率で重要なトークンを保存することによって KV キャッシュを管理します。
シザーハンズがモデルの品質を損なうことなく、KV キャッシュの推論メモリ使用量を最大 5 分の 1 に削減できることを検証します。
さらに、シザーハンズを、従来モデルの重みを圧縮するために使用されていた 4 ビット量子化と組み合わせて、最大 20 倍の圧縮を達成できることを実証します。

要約(オリジナル)

Large language models(LLMs) have sparked a new wave of exciting AI applications. Hosting these models at scale requires significant memory resources. One crucial memory bottleneck for the deployment stems from the context window. It is commonly recognized that model weights are memory hungry; however, the size of key-value embedding stored during the generation process (KV cache) can easily surpass the model size. The enormous size of the KV cache puts constraints on the inference batch size, which is crucial for high throughput inference workload. Inspired by an interesting observation of the attention scores, we hypothesize the persistence of importance: only pivotal tokens, which had a substantial influence at one step, will significantly influence future generations. Based on our empirical verification and theoretical analysis around this hypothesis, we propose Scissorhands, a system that maintains the memory usage of the KV cache at a fixed budget without finetuning the model. In essence, Scissorhands manages the KV cache by storing the pivotal tokens with a higher probability. We validate that Scissorhands reduces the inference memory usage of the KV cache by up to 5X without compromising model quality. We further demonstrate that Scissorhands can be combined with 4-bit quantization, traditionally used to compress model weights, to achieve up to 20X compression.

arxiv情報

著者 Zichang Liu,Aditya Desai,Fangshuo Liao,Weitao Wang,Victor Xie,Zhaozhuo Xu,Anastasios Kyrillidis,Anshumali Shrivastava
発行日 2023-05-26 17:39:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク