要約
多数のユーザーとリクエストを同時に処理するには、大規模言語モデル (LLM) サービス提供システムで優れた公平性が必要です。
これにより、システムは少数のユーザーにパフォーマンスを体験させるのではなく、同じコストでより多くのユーザーのサービス レベル目標 (SLO) (最初のトークンまでの時間 (TTFT) やトークン間の時間 (TBT) など) を確実に満たすことができます。
SLOをはるかに上回っています。
公平性を高めるために、プリエンプション ベースのスケジューリング ポリシーは各リクエストの優先順位を動的に調整し、実行時のバランスを維持します。
ただし、既存のシステムはスループットを過度に優先する傾向があり、優先順位の調整を通じて公平性を維持するために重要な、プリエンプションによるコンテキストの切り替えによって生じるオーバーヘッドを見落とす傾向があります。
この作業では、このオーバーヘッドを引き起こす 3 つの主な課題を特定します。
1) 不適切な I/O 使用率。
2) GPU のアイドル状態。
3) マルチターン会話中の不要な I/O 送信。
私たちの重要な洞察は、既存のシステムにおけるブロックベースの KV キャッシュ メモリ ポリシーは、ほぼゼロのメモリ浪費を達成する一方で、KV キャッシュ メモリの不連続性と不十分な粒度につながるということです。
これに対応するために、既存の KV キャッシュ メモリ割り当てポリシーに準拠するだけでなく、コンテキスト スイッチングのオーバーヘッドも軽減する、公平性を意識したサービング システムである FastSwitch を導入します。
私たちの評価では、FastSwitch が最先端の LLM サービング システム vLLM を上回り、さまざまなテール TTFT および TBT で 1.4 ~ 11.2 倍の速度向上を実現していることが示されています。
要約(オリジナル)
Serving numerous users and requests concurrently requires good fairness in Large Language Models (LLMs) serving system. This ensures that, at the same cost, the system can meet the Service Level Objectives (SLOs) of more users , such as time to first token (TTFT) and time between tokens (TBT), rather than allowing a few users to experience performance far exceeding the SLOs. To achieve better fairness, the preemption-based scheduling policy dynamically adjusts the priority of each request to maintain balance during runtime. However, existing systems tend to overly prioritize throughput, overlooking the overhead caused by preemption-induced context switching, which is crucial for maintaining fairness through priority adjustments. In this work, we identify three main challenges that result in this overhead. 1) Inadequate I/O utilization. 2) GPU idleness. 3) Unnecessary I/O transmission during multi-turn conversations. Our key insight is that the block-based KV cache memory policy in existing systems, while achieving near-zero memory waste, leads to discontinuity and insufficient granularity in the KV cache memory. To respond, we introduce FastSwitch, a fairness-aware serving system that not only aligns with existing KV cache memory allocation policy but also mitigates context switching overhead. Our evaluation shows that FastSwitch outperforms the state-of-the-art LLM serving system vLLM with speedups of 1.4-11.2x across different tail TTFT and TBT.
arxiv情報
著者 | Ao Shen,Zhiyao Li,Mingyu Gao |
発行日 | 2024-11-27 15:07:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google