Layer-Condensed KV Cache for Efficient Inference of Large Language Models

要約

大量のメモリ消費は、現実世界のアプリケーションに高スループットの大規模言語モデルを展開する際の大きなボトルネックとなっていました。
多数のパラメーターに加えて、トランスフォーマー アーキテクチャのアテンション メカニズムのキーバリュー (KV) キャッシュは、特に深層言語モデルのレイヤー数が多い場合に、大量のメモリを消費します。
この論文では、少数の層の KV のみを計算してキャッシュする新しい方法を提案します。これにより、メモリ消費量が大幅に節約され、推論スループットが向上します。
大規模な言語モデルに関する私たちの実験では、私たちの方法が標準のトランスフォーマーよりも最大 26$\times$ 高いスループットと、言語モデリングとダウンストリーム タスクで競争力のあるパフォーマンスを達成できることがわかりました。
さらに、私たちの方法は既存のトランスフォーマーのメモリ節約技術と直交しているため、それらをモデルと統合するのが簡単で、推論効率のさらなる向上を実現します。
私たちのコードは https://github.com/whyNLP/LCKV で入手できます。

要約(オリジナル)

Huge memory consumption has been a major bottleneck for deploying high-throughput large language models in real-world applications. In addition to the large number of parameters, the key-value (KV) cache for the attention mechanism in the transformer architecture consumes a significant amount of memory, especially when the number of layers is large for deep language models. In this paper, we propose a novel method that only computes and caches the KVs of a small number of layers, thus significantly saving memory consumption and improving inference throughput. Our experiments on large language models show that our method achieves up to 26$\times$ higher throughput than standard transformers and competitive performance in language modeling and downstream tasks. In addition, our method is orthogonal to existing transformer memory-saving techniques, so it is straightforward to integrate them with our model, achieving further improvement in inference efficiency. Our code is available at https://github.com/whyNLP/LCKV.

arxiv情報

著者 Haoyi Wu,Kewei Tu
発行日 2024-05-17 08:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク