Niyama : Breaking the Silos of LLM Inference Serving

要約

大規模な言語モデル(LLMS)の広範な採用により、非常に異なる遅延要件を備えた多様なアプリケーションが可能になりました。
既存のLLMサービングフレームワークは、粗粒のワークロード分離(インタラクティブとバッチ)を備えたサイロ化されたインフラストラクチャに依存しています。
これにより、交通量のサージ中の運用上の非効率性、過剰な導入、負荷管理が不十分になります。
共有インフラストラクチャ上の多様なワークロードの効率的な共同スケジュールを可能にする新しいQoS駆動型の推論サービスシステムであるNiyamaを紹介します。
Niyamaは、アプリケーションが正確な遅延要件を指定できるように、きめ細かいQoS分類を導入し、リアルタイムシステム状態に基づいてスケジューリングの決定を動的に適応させます。
LLM推論の予測可能な実行特性を活用して、Niyamaは、厳格なQoS保証を維持しながら、全体的なスループットを改善する動的なチャンキングメカニズムを実装します。
さらに、Niyamaは、公平性と効率のバランスをとるハイブリッド優先順位付けポリシーを採用しており、過負荷条件中に優雅なサービスの劣化を可能にする選択的要求降格を採用しています。
私たちの評価は、QoS保証を維持しながら、Niyamaが現在のサイロ化された展開と比較してサービング容量を32%増加させることを示しています。
特に、極端な負荷の下では、システムは現在の戦略と比較してSLO違反を数桁削減します。

要約(オリジナル)

The widespread adoption of Large Language Models (LLMs) has enabled diverse applications with very different latency requirements. Existing LLM serving frameworks rely on siloed infrastructure with coarse-grained workload segregation — interactive and batch — leading to inefficient resource utilization and limited support for fine-grained Quality-of-Service (QoS) differentiation. This results in operational inefficiencies, over-provisioning and poor load management during traffic surges. We present Niyama, a novel QoS-driven inference serving system that enables efficient co-scheduling of diverse workloads on shared infrastructure. Niyama introduces fine-grained QoS classification allowing applications to specify precise latency requirements, and dynamically adapts scheduling decisions based on real-time system state. Leveraging the predictable execution characteristics of LLM inference, Niyama implements a dynamic chunking mechanism to improve overall throughput while maintaining strict QoS guarantees. Additionally, Niyama employs a hybrid prioritization policy that balances fairness and efficiency, and employs selective request relegation that enables graceful service degradation during overload conditions. Our evaluation demonstrates that Niyama increases serving capacity by 32% compared to current siloed deployments, while maintaining QoS guarantees. Notably, under extreme load, our system reduces SLO violations by an order of magnitude compared to current strategies.

arxiv情報

著者 Kanishk Goel,Jayashree Mohan,Nipun Kwatra,Ravi Shreyas Anupindi,Ramachandran Ramjee
発行日 2025-03-28 16:04:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG パーマリンク