Reconciling High Accuracy, Cost-Efficiency, and Low Latency of Inference Serving Systems

要約

タイトル:推論サービスの高精度、コスト効率、低遅延を調整する方法

要約:

– 機械学習(ML)の推論が様々なアプリケーションで急速に増加している。
– ML推論サービスはユーザーと直接やり取りするため、高速かつ正確な応答が必要とされる。
– さらに、これらのサービスはリクエストの動的なワークロードに直面し、計算リソースの変更が必要になる。
– 計算リソースの適切なサイズ調整が行われないと、遅延サービスレベル目標(SLO)の違反または計算リソースの無駄が生じる。
– すべての精度、遅延、コストの柱を考慮した動的なワークロードに適応することは難しい。
– これらの課題に対応して、InfAdapterを提案する。InfAdapterは、精度とコストからなる目的関数を最大化しながらレイテンシSLOを満たすために、複数のMLモデルの変異体とリソース割り当てを選択する。
– InfAdapterは、人気のある業界のオートスケーラー(Kubernetes Vertical Pod Autoscaler)と比較して、SLO違反とコストを最大65%、33%削減する。

要約(オリジナル)

The use of machine learning (ML) inference for various applications is growing drastically. ML inference services engage with users directly, requiring fast and accurate responses. Moreover, these services face dynamic workloads of requests, imposing changes in their computing resources. Failing to right-size computing resources results in either latency service level objectives (SLOs) violations or wasted computing resources. Adapting to dynamic workloads considering all the pillars of accuracy, latency, and resource cost is challenging. In response to these challenges, we propose InfAdapter, which proactively selects a set of ML model variants with their resource allocations to meet latency SLO while maximizing an objective function composed of accuracy and cost. InfAdapter decreases SLO violation and costs up to 65% and 33%, respectively, compared to a popular industry autoscaler (Kubernetes Vertical Pod Autoscaler).

arxiv情報

著者 Mehran Salmani,Saeid Ghafouri,Alireza Sanaee,Kamran Razavi,Max Mühlhäuser,Joseph Doyle,Pooyan Jamshidi,Mohsen Sharif
発行日 2023-04-21 11:19:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.DC, cs.LG, cs.SY, eess.SY パーマリンク