要約
Large Language Model (LLM) 推論では、通常、LLM リクエストの出力長は事前に不明であるとみなされます。
その結果、ほとんどの LLM サービング システムは単純な先着順 (FCFS) スケジューリング戦略を採用しており、ヘッド オブ ライン (HOL) ブロッキングやスループットとサービス品質の低下につながります。
この論文では、この仮定を再検討します。各リクエストの正確な生成長を予測することは不可能ですが、ランク付け学習を使用して、リクエストのバッチ内の出力長の相対的なランクを予測することは可能であることを示します。
ランキング情報は、リクエストをスケジュールするための貴重なガイダンスを提供します。
この洞察に基づいて、既存のアプローチよりも適切に最短ジョブ優先 (SJF) スケジュールを近似できる、LLM 推論とサービス提供のための新しいスケジューラーを開発します。
このスケジューラを最先端の LLM サービス システムと統合し、いくつかの重要なアプリケーションで大幅なパフォーマンスの向上を示しています。チャットボット サービスのレイテンシが 2.8 倍低く、合成データ生成のスループットが 6.5 倍向上しています。
私たちのコードは https://github.com/hao-ai-lab/vllm-ltr.git で入手できます。
要約(オリジナル)
In Large Language Model (LLM) inference, the output length of an LLM request is typically regarded as not known a priori. Consequently, most LLM serving systems employ a simple First-come-first-serve (FCFS) scheduling strategy, leading to Head-Of-Line (HOL) blocking and reduced throughput and service quality. In this paper, we reexamine this assumption — we show that, although predicting the exact generation length of each request is infeasible, it is possible to predict the relative ranks of output lengths in a batch of requests, using learning to rank. The ranking information offers valuable guidance for scheduling requests. Building on this insight, we develop a novel scheduler for LLM inference and serving that can approximate the shortest-job-first (SJF) schedule better than existing approaches. We integrate this scheduler with the state-of-the-art LLM serving system and show significant performance improvement in several important applications: 2.8x lower latency in chatbot serving and 6.5x higher throughput in synthetic data generation. Our code is available at https://github.com/hao-ai-lab/vllm-ltr.git
arxiv情報
著者 | Yichao Fu,Siqi Zhu,Runlong Su,Aurick Qiao,Ion Stoica,Hao Zhang |
発行日 | 2024-08-28 13:35:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google