Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks

要約

大規模言語モデル (LLM) の自己回帰生成プロセスでは膨大な計算コストがかかるため、大規模言語モデル (LLM) を効率的に提供する方法が差し迫った問題となっています。
計算コストを軽減するために、LLM は多くの場合、KV キャッシュ技術を採用して生成速度を向上させます。
計算効率は向上しますが、特にロングコンテキストのシナリオでは KV キャッシュのストレージ要件が大きくなり、大量のメモリ消費につながります。
既存の KV キャッシュのエビクション方法では、エビクションによる情報損失により、ロングコンテキストのシナリオで LLM のパフォーマンスが低下することがよくあります。
この論文では、限られたメモリ予算の下でパフォーマンスを大幅に低下させることなく、ロングコンテキストのタスクに対する適応型 KV キャッシュ圧縮を実現する、KVMerger と呼ばれる新しい KV キャッシュ マージ アプローチを提案します。
私たちのアプローチは、主要な状態が単一シーケンス内のトークン レベルで高い類似性を示すという興味深い観察に触発されています。
マージを容易にするために、マージに適した KV 状態を識別するための効果的かつ簡単なマージ セット識別アルゴリズムを開発します。
私たちのマージ セット識別アルゴリズムは、類似性の観点から、KV キャッシュのスパース性がデータセットから独立しており、モデル レベルで持続するという 2 番目の観察を刺激します。
続いて、各マージ セット内のすべての状態を選択的にマージするためのガウス カーネル重み付けマージ アルゴリズムを提案します。
私たちは、限られたメモリ予算の下での長いコンテキストのタスクに対する KVMerger の有効性を実証するために広範な実験を実施し、KVMerger を Llama2-7B-chat や Llama2-13B-chat などのモデルに適用します。
LongBench と ZeroScroll ベンチマークを使用して、私たちの手法を H2O や CaM などの他の KV キャッシュ圧縮技術と比較し、KV キャッシュ バジェットが 50% と 35% の両方のタスクにわたって、私たちの手法が優れたパフォーマンスを達成していることを示しています。

要約(オリジナル)

How to efficiently serve Large Language Models (LLMs) has become a pressing issue because of their huge computational cost in their autoregressive generation process. To mitigate computational costs, LLMs often employ the KV Cache technique to improve the generation speed. While improving the computational efficiency, the storage requirements of the KV cache are substantial, particularly in long-context scenarios, leading to significant memory consumption. Existing KV cache eviction methods often degrade the performance of LLMs in long-context scenarios due to the information loss introduced by eviction. In this paper, we propose a novel KV cache merging approach, called KVMerger, to achieve adaptive KV cache compression for long-context tasks without significant performance degradation under constrained memory budgets. Our approach is inspired by the intriguing observation that key states exhibit high similarity at the token level within a single sequence. To facilitate merging, we develop an effective yet straightforward merging set identification algorithm to identify suitable KV states for merging. Our merging set identification algorithm stimulates the second observation that KV cache sparsity, from similarity perspective, is independent of the dataset and remains persistent at the model level. Subsequently, we propose a Gaussian kernel weighted merging algorithm to selectively merge all states within each merging set. We conduct extensive experiments to demonstrate the effectiveness of KVMerger for long-context tasks under constrained memory budgets, applying it to models including Llama2-7B-chat and Llama2-13B-chat. Using the LongBench and ZeroScroll benchmarks, we compare our method with other KV cache compression techniques, including H2O and CaM, showing that our method achieves superior performance across tasks with both 50% and 35% KV cache budgets.

arxiv情報

著者 Zheng Wang,Boxiao Jin,Zhongzhi Yu,Minjia Zhang
発行日 2024-07-11 12:50:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク