Preble: Efficient Distributed Prompt Scheduling for LLM Serving

要約

大規模言語モデル(LLM)へのプロンプトは、単純なユーザへの質問を超えて進化している。LLMが複雑な問題を解決するために、今日では、プロンプトにドメイン固有の指示、ツールの使い方の説明、教科書の章のような長い文脈を含めることが行われている。そのため、プロンプトの多くの部分はリクエスト間で繰り返される。最近の研究では、プロンプトのKV状態をキャッシュして再利用することが提案されている。しかし、それらはすべて単一GPUによる最適化に限定されており、一方、本番のLLMサービングシステムはもともと分散型である。 本稿では、プロンプト共有をターゲットとし最適化する初の分散LLMサービングプラットフォームであるPrebleを提案する。新しいスケジューリングアルゴリズムと階層的スケジューリングメカニズムにより、KV状態の再利用と計算負荷分散を協調最適化する分散スケジューリングシステムを設計した。つのオープンソースLLMにおける実際のワークロードとリクエスト到着パターンを用いたPrebleの評価により、PrebleはSOTAサービングシステムを平均待ち時間で1.5倍から14.5倍、p99待ち時間で2倍から10倍上回ることが示された。

要約(オリジナル)

Prompts to large language models (LLMs) have evolved beyond simple user questions. For LLMs to solve complex problems, today’s practices are to include domain-specific instructions, illustration of tool usages, and/or long context such as textbook chapters in prompts. As such, many parts of prompts are repetitive across requests. Recent works propose to cache and reuse KV state of prompts. However, they are all confined to a single-GPU optimization, while production LLM serving systems are distributed by nature. This paper proposes Preble, the first distributed LLM serving platform that targets and optimizes for prompt sharing. We designed a distributed scheduling system that co-optimizes KV state reuse and computation load-balancing with a new scheduling algorithm and a hierarchical scheduling mechanism. Our evaluation of Preble with real workloads and request arrival patterns on two open-source LLMs shows that Preble outperforms the SOTA serving systems by 1.5X to 14.5X on average latency and 2X to 10X on p99 latency.

arxiv情報

著者 Vikranth Srivatsa,Zijian He,Reyna Abhyankar,Dongming Li,Yiying Zhang
発行日 2024-10-03 17:50:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.DC, cs.LG パーマリンク