Optimizing KV Cache Eviction in LLMs: Adaptive Allocation for Enhanced Budget Utilization

要約

大規模言語モデルはさまざまな分野で優れていますが、長いシーケンスの推論には大規模な KV キャッシュが必要であるため、効率の限界に直面しています。
多くの取り組みでは、実行時に重要でないキャッシュ要素を排除することで、生成品質を維持しながら、特定のメモリ バジェット内でキャッシュ サイズを削減しようとしています。
これらの基本原則を再検討すると、一般的な戦略は本質的に、特定の予算配分内で立ち退き損失の上限を最小限に抑えることを目的としていることがわかります。
ただし、立ち退き手順中にさまざまなアテンションヘッドに予算を均一に割り当てる現在の慣行では、立ち退き後の生成の品質が低下する傾向があることが観察されています。
これらの発見を踏まえて、我々は、損失の上限が以前の均一な割り当て方法の損失上限を超えないことを理論的に保証するだけでなく、セルフアテンションメカニズムの特性と効果的に整合する、シンプルで効果的な適応割り当てアルゴリズムを提案します。
上限を減らすこと。
さらに、このアルゴリズムを 2 つの最も先進的な手法と統合すると、Ada-SnapKV と Ada-Pyramid が生まれます。
16 のデータセットにわたる広範な実験検証と Needle-in-a-Haystack テストにより、Ada-SnapKV と Ada-Pyramid がさらなる機能強化を達成し、最先端のパフォーマンスにおける新しいベンチマークを確立していることが確認されました。

要約(オリジナル)

Large Language Models have excelled in various fields but encounter efficiency limitations due to the extensive KV cache required for long sequences inference. Many efforts try to evict non-critical cache elements during runtime, thereby reducing cache size within a given memory budget while preserving generation quality. Our reexamination of their underlying principles discerns that prevailing strategies essentially aim to minimize an upper bound of eviction loss within a specific budget allocation. However, we observe that the current practice of uniformly allocating budgets across different attention heads during the eviction procedure tends to degrade the quality of generation posten-eviction. In light of these findings, we propose a simple yet effective adaptive allocation algorithm that not only theoretically ensures its loss upper bound does not exceed that of previous uniform allocation methods, but also effectively aligns with the characteristics of the self-attention mechanism, thus practically reducing the upper bound. Further, integrating this algorithm with two of the most advanced methods yields Ada-SnapKV and Ada-Pyramid. Extensive experimental validation across 16 datasets and the Needle-in-a-Haystack test confirm that Ada-SnapKV and Ada-Pyramid achieve further enhancements, establishing new benchmarks in state-of-the-art performance.

arxiv情報

著者 Yuan Feng,Junlin Lv,Yukun Cao,Xike Xie,S. Kevin Zhou
発行日 2024-07-16 09:53:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク