Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference

要約

多くの計算要因により、大規模な言語モデルの広範な展開が制限されます。
このペーパーでは、デコード中に以前の KV ペアを保存する必要がある計算ショートカットであるキーバリュー (KV) キャッシュによって引き起こされるメモリのボトルネックに焦点を当てます。
既存の KV キャッシュ手法は、比較的重要度の低い KV ペアの大きな部分をプルーニングまたは削除してキャッシュのメモリ フットプリントを大幅に削減することでこの問題に取り組んでいますが、以前のトークンの大部分を再収集する必要があるタスクでは成功が限られている可能性があります。
この問題を軽減するために、私たちは、後のデコードステップですべてのトークンをクエリできるように、(ほぼ無料の)一定サイズのキャッシュとエビクションベースのキャッシュメソッドを単純に統合する LESS を提案します。
情報を長期間保持するその機能は、効率的でありながら、LESS がすべてをキャッシュしたり、場合によっては一致させたりすることによるパフォーマンスのギャップを削減できることを実証するさまざまなタスクでメリットを示しています。

要約(オリジナル)

Many computational factors limit broader deployment of large language models. In this paper, we focus on a memory bottleneck imposed by the key-value (KV) cache, a computational shortcut that requires storing previous KV pairs during decoding. While existing KV cache methods approach this problem by pruning or evicting large swaths of relatively less important KV pairs to dramatically reduce the memory footprint of the cache, they can have limited success in tasks that require recollecting a majority of previous tokens. To alleviate this issue, we propose LESS, a simple integration of a (nearly free) constant sized cache with eviction-based cache methods, such that all tokens can be queried at later decoding steps. Its ability to retain information throughout time shows merit on a variety of tasks where we demonstrate LESS can help reduce the performance gap from caching everything, sometimes even matching it, all while being efficient.

arxiv情報

著者 Harry Dong,Xinyu Yang,Zhenyu Zhang,Zhangyang Wang,Yuejie Chi,Beidi Chen
発行日 2024-02-14 18:54:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク