Adaptive Orchestration for Large-Scale Inference on Heterogeneous Accelerator Systems Balancing Cost, Performance, and Resilience

要約

生成AIワークロードの急増により、運用コストを含めながらGPUと特殊なアクセラレータの両方を柔軟に活用できるスケーラブルな推論システムが必要になりました。
このペーパーでは、リアルタイムのコストと容量シグナルに基づいて不均一なアクセラレータ全体でリクエストを適応的に割り当てるハードウェアと存在する制御ループを提案します。
このアプローチは、コストが最適化されたモードと容量が最適化されたモードを動的にシフトすることにより、低レイテンシと高スループットを維持し、変動する可用性の下で高価な計算リソースを最も効率的に使用します。
安定した拡散モデルを使用して評価されたフレームワークは、一貫してレイテンシターゲットを満たし、容量不足中にトラフィックを自動的にリダイレクトし、可能な場合は低コストの加速器を活用します。
これらの結果は、ソフトウェアとハ​​ードウェアスタック全体にまたがるフィードバック駆動型の展開戦略が、限られた加速器容量に直面して回復力を維持しながら、組織が生成的なAIワークロードを効率的に拡大するのに役立つ方法を強調しています。

要約(オリジナル)

The surge in generative AI workloads has created a need for scalable inference systems that can flexibly harness both GPUs and specialized accelerators while containing operational costs. This paper proposes a hardware-agnostic control loop that adaptively allocates requests across heterogeneous accelerators based on real-time cost and capacity signals. The approach sustains low latency and high throughput by dynamically shifting between cost-optimized and capacity-optimized modes, ensuring the most efficient use of expensive compute resources under fluctuating availability. Evaluated using the Stable Diffusion model, the framework consistently meets latency targets, automatically redirects traffic during capacity shortfalls, and capitalizes on lower-cost accelerators when possible. These results highlight how a feedback-driven deployment strategy, spanning the entire software and hardware stack, can help organizations efficiently scale generative AI workloads while maintaining resilience in the face of limited accelerator capacity.

arxiv情報

著者 Yahav Biran,Imry Kissos
発行日 2025-03-27 17:16:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68U01, cs.AI, cs.PF パーマリンク