Injecting Adrenaline into LLM Serving: Boosting Resource Utilization and Throughput via Attention Disaggregation

要約

大規模な言語モデル(LLM)サービスシステムでは、各リクエストを実行することは、計算集約型プレフィルフェーズとメモリ集約型デコードフェーズの2つのフェーズで構成されています。
2つのフェーズ間のパフォーマンス干渉を防ぐために、現在のLLMサービングシステムは通常、Prefill-Decodingの分解を採用します。ここで、2つのフェーズが別々のマシンに分割されます。
ただし、このアプローチが重要なリソースの十分な活用につながることを観察します。
具体的には、計算集約型のPrefillインスタンスは、メモリの使用率が低いことに苦しんでいますが、メモリ集約型エクスペリエンスの低い計算使用率であるインスタンスを解読します。
この問題に対処するために、このペーパーでは、LLMサービングシステムのリソース利用とパフォーマンスを強化するために設計された、アドレナリン、注意分解とオフロードメカニズムを提案します。
アドレナリンの重要な革新は、デコードフェーズでの注意計算の一部を分解し、それらをプレフィルインスタンスにオフロードすることにあります。
デコード相注意計算のメモリに縛られた性質により、効果的なオフロード戦略を本質的に可能にし、2つの補完的な利点をもたらします。1)プレフィルインスタンスでのメモリ容量と帯域幅の使用率を改善し、2)デコードの使用率を高め、デコードインスタンスのコンピューティングを強化し、全体的なシステムのパフォーマンスを増やします。
アドレナリンは、低遅延のデコード同期、リソース効率の高いPrefillコロケーション、負荷を受け取るオフロードスケジューリングの3つの重要な手法を通じて、これらの利益を達成します。
実験結果は、アドレナリンがプレフィルインスタンスで2.28倍高いメモリ容量と2.07倍のメモリ帯域幅の利用を達成し、デコードインスタンスのコンピューティング利用率が最大1.67倍の改善、および最先端のシステムと比較して1.68倍の全体的な推論スループットを達成することを示しています。

要約(オリジナル)

In large language model (LLM) serving systems, executing each request consists of two phases: the compute-intensive prefill phase and the memory-intensive decoding phase. To prevent performance interference between the two phases, current LLM serving systems typically adopt prefill-decoding disaggregation, where the two phases are split across separate machines. However, we observe this approach leads to significant resource underutilization. Specifically, prefill instances that are compute-intensive suffer from low memory utilization, while decoding instances that are memory-intensive experience low compute utilization. To address this problem, this paper proposes Adrenaline, an attention disaggregation and offloading mechanism designed to enhance resource utilization and performance in LLM serving systems. Adrenaline’s key innovation lies in disaggregating part of the attention computation in the decoding phase and offloading them to prefill instances. The memory-bound nature of decoding-phase attention computation inherently enables an effective offloading strategy, yielding two complementary advantages: 1) improved memory capacity and bandwidth utilization in prefill instances, and 2) increased decoding batch sizes that enhance compute utilization in decoding instances, collectively boosting overall system performance. Adrenaline achieves these gains through three key techniques: low-latency decoding synchronization, resource-efficient prefill colocation, and load-aware offloading scheduling. Experimental results show that Adrenaline achieves 2.28x higher memory capacity and 2.07x better memory bandwidth utilization in prefill instances, up to 1.67x improvements in compute utilization for decoding instances, and 1.68x higher overall inference throughput compared to state-of-the-art systems.

arxiv情報

著者 Yunkai Liang,Zhangyu Chen,Pengfei Zuo,Zhi Zhou,Xu Chen,Zhou Yu
発行日 2025-03-26 13:48:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク