Key, Value, Compress: A Systematic Exploration of KV Cache Compression Techniques

要約

大規模な言語モデル(LLMS)は、テキスト、画像、ビデオコンテンツを生成する際に並外れた機能を実証しています。
ただし、コンテキストの長さが増加するにつれて、注意の計算コストは​​トークンの数とともに二次的に増加し、重要な効率の課題を提示します。
このペーパーでは、さまざまなキー価値(kV)キャッシュ圧縮戦略の分析を提示し、根本的な原則と実装手法によってこれらの方法を分類する包括的な分類法を提供します。
さらに、パフォーマンスと推論の遅延に対する影響を評価し、その有効性に関する重要な洞察を提供します。
私たちの調査結果は、KVキャッシュ圧縮に関連するトレードオフと、長いコンテキストシナリオの処理への影響を強調し、より効率的なLLM実装への道を開いています。

要約(オリジナル)

Large language models (LLMs) have demonstrated exceptional capabilities in generating text, images, and video content. However, as context length grows, the computational cost of attention increases quadratically with the number of tokens, presenting significant efficiency challenges. This paper presents an analysis of various Key-Value (KV) cache compression strategies, offering a comprehensive taxonomy that categorizes these methods by their underlying principles and implementation techniques. Furthermore, we evaluate their impact on performance and inference latency, providing critical insights into their effectiveness. Our findings highlight the trade-offs involved in KV cache compression and its influence on handling long-context scenarios, paving the way for more efficient LLM implementations.

arxiv情報

著者 Neusha Javidnia,Bita Darvish Rouhani,Farinaz Koushanfar
発行日 2025-04-22 17:34:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク