vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving

要約

大規模言語モデル (LLM) はさまざまなドメインで広く使用されており、毎日何百万ものリクエストを処理します。
この需要の急増により、コストを管理可能に保ちながらスループットとレイテンシーを最適化する上で大きな課題が生じています。
以前の計算を保持するための標準的な方法である Key-Value (KV) キャッシュにより、LLM 推論はメモリに大きく制限されます。
バッチ化戦略はパフォーマンスを向上させることができますが、多くの場合、重大なメモリの断片化を引き起こします。
vLLM のような最先端のシステムは、ページ アテンション メカニズムを使用して KV キャッシュの断片化を軽減しますが、ページ管理と計算カーネルが密接に結合しているため、依然として非効率なメモリと計算操作に悩まされます。
この研究では、GPU 仮想メモリ管理 (VMM) に基づいた LLM 推論のための革新的なテンソル構造である vTensor を紹介します。
vTensor は、メモリの最適化から計算を切り離し、動的な拡張性を提供することで、既存の制限に対処します。
私たちのフレームワークは CPU-GPU 異種混合アプローチを採用しており、異なる LLM アーキテクチャにわたるさまざまな計算カーネルに対応しながら、効率的で断片化のないメモリ管理を保証します。
実験結果によると、vTensor はさまざまなモデルにわたって平均 1.86 倍の高速化を達成し、マルチターン チャット シナリオでは最大 2.42 倍の高速化を実現しました。
さらに、vTensor はカーネル評価で平均 2.12 倍および 3.15 倍の高速化を実現し、SGLang Triton プレフィックス事前入力カーネルお​​よび vLLM ページ アテンション カーネルと比較して、それぞれ最大 3.92 倍および 3.27 倍に達します。
さらに、vLLM と比較して NVIDIA A100 GPU のメモリの約 71.25% (57GB) が解放され、より多くのメモリを使用するワークロードが可能になります。

要約(オリジナル)

Large Language Models (LLMs) are widely used across various domains, processing millions of daily requests. This surge in demand poses significant challenges in optimizing throughput and latency while keeping costs manageable. The Key-Value (KV) cache, a standard method for retaining previous computations, makes LLM inference highly bounded by memory. While batching strategies can enhance performance, they frequently lead to significant memory fragmentation. Even though cutting-edge systems like vLLM mitigate KV cache fragmentation using paged Attention mechanisms, they still suffer from inefficient memory and computational operations due to the tightly coupled page management and computation kernels. This study introduces the vTensor, an innovative tensor structure for LLM inference based on GPU virtual memory management (VMM). vTensor addresses existing limitations by decoupling computation from memory defragmentation and offering dynamic extensibility. Our framework employs a CPU-GPU heterogeneous approach, ensuring efficient, fragmentation-free memory management while accommodating various computation kernels across different LLM architectures. Experimental results indicate that vTensor achieves an average speedup of 1.86x across different models, with up to 2.42x in multi-turn chat scenarios. Additionally, vTensor provides average speedups of 2.12x and 3.15x in kernel evaluation, reaching up to 3.92x and 3.27x compared to SGLang Triton prefix-prefilling kernels and vLLM paged Attention kernel, respectively. Furthermore, it frees approximately 71.25% (57GB) of memory on the NVIDIA A100 GPU compared to vLLM, enabling more memory-intensive workloads.

arxiv情報

著者 Jiale Xu,Rui Zhang,Cong Guo,Weiming Hu,Zihan Liu,Feiyang Wu,Yu Feng,Shixuan Sun,Changxu Shao,Yuhong Guo,Junping Zhao,Ke Zhang,Minyi Guo,Jingwen Leng
発行日 2024-07-22 14:37:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク