Autellix: An Efficient Serving Engine for LLM Agents as General Programs

要約

大規模な言語モデル(LLM)アプリケーションは、単純なチャットボットを超えて動的な汎用エージェントプログラムに進化しています。これは、LLMコールと出力トークンをスケーリングして、AIエージェントが複雑なタスクの推論、探索、解決を支援します。
ただし、既存のLLMサービングシステムは、プログラムとコールの間の依存関係を無視し、最適化のための重要な機会を欠いています。
私たちの分析により、LLMサービスエンジンに提出されたプログラムは、主に個々のLLMリクエストとプログラムの両方で頭のブロックをブロックしたため、長い累積待機時間を経験していることが明らかになりました。
これに対処するために、エンドツーエンドのレイテンシーを最小限に抑えるためにプログラムを一流の市民として扱うLLMサービングシステムであるAutellixを紹介します。
Autellixは、プログラムレベルのコンテキストでスケジューラを充実させるLLMコールをプログラムで送信します。
以前に完了したコールに基づいて、LLMコールを優先して優先順位を付ける、シングルスレッドおよび分散プログラムのために2つのスケジューリングアルゴリズムを提案します。
私たちの評価は、多様なLLMとエージェントワークロード全体で、AutellixがVLLMなどの最先端のシステムと比較して、同じ遅延でプログラムのスループットを4〜15倍改善することを示しています。

要約(オリジナル)

Large language model (LLM) applications are evolving beyond simple chatbots into dynamic, general-purpose agentic programs, which scale LLM calls and output tokens to help AI agents reason, explore, and solve complex tasks. However, existing LLM serving systems ignore dependencies between programs and calls, missing significant opportunities for optimization. Our analysis reveals that programs submitted to LLM serving engines experience long cumulative wait times, primarily due to head-of-line blocking at both the individual LLM request and the program. To address this, we introduce Autellix, an LLM serving system that treats programs as first-class citizens to minimize their end-to-end latencies. Autellix intercepts LLM calls submitted by programs, enriching schedulers with program-level context. We propose two scheduling algorithms-for single-threaded and distributed programs-that preempt and prioritize LLM calls based on their programs’ previously completed calls. Our evaluation demonstrates that across diverse LLMs and agentic workloads, Autellix improves throughput of programs by 4-15x at the same latency compared to state-of-the-art systems, such as vLLM.

arxiv情報

著者 Michael Luo,Xiaoxiang Shi,Colin Cai,Tianjun Zhang,Justin Wong,Yichuan Wang,Chi Wang,Yanping Huang,Zhifeng Chen,Joseph E. Gonzalez,Ion Stoica
発行日 2025-02-19 18:59:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG パーマリンク