CascadeServe: Unlocking Model Cascades for Inference Serving

要約

機械学習 (ML) モデルが実稼働環境に導入されることが増えており、効率的な推論提供システムが求められています。
効率的な推論サービスは 2 つの課題によって複雑になります。(i) ML モデルには高い計算コストがかかり、(ii) 実際のアプリケーションのリクエスト到着率は頻繁かつ突然大きく変動するため、ハードウェアを正しくプロビジョニングすることが困難です。
モデル カスケードは、(i) 精度を維持しながら作業を節約し、(ii) 作業と精度の間の高解像度のトレードオフを明らかにし、要求到着率のきめ細かい調整を可能にするため、これらの課題の両方に取り組むように配置されています。
モデル カスケードは、その可能性にもかかわらず、オンライン サービス システム内では使用されていません。
これには、ワークロードの適応、ハードウェアへのモデルのレプリケーション、推論のスケジューリング、リクエストのバッチ処理など、独自の一連の課題が伴います。
この研究では、カスケードによるエンドツーエンドの推論サービスを自動化および最適化する CascadeServe を提案します。
CascadeServe は、オフライン段階とオンライン段階で動作します。
オフライン段階では、システムはオンラインで推論を提供する方法を指定するギア プランを事前計算します。
オンライン段階では、ギア プランにより、無視できる意思決定オーバーヘッドでクエリ負荷に最適に近い適応を行いながら、システムが推論を実行できるようになります。
さまざまなワークロードでの最先端のベースラインと比較した場合、CascadeServe はレイテンシー精度の広い範囲にわたってコストを 2 ~ 3 倍節約できることがわかりました。

要約(オリジナル)

Machine learning (ML) models are increasingly deployed to production, calling for efficient inference serving systems. Efficient inference serving is complicated by two challenges: (i) ML models incur high computational costs, and (ii) the request arrival rates of practical applications have frequent, high, and sudden variations which make it hard to correctly provision hardware. Model cascades are positioned to tackle both of these challenges, as they (i) save work while maintaining accuracy, and (ii) expose a high-resolution trade-off between work and accuracy, allowing for fine-grained adjustments to request arrival rates. Despite their potential, model cascades haven’t been used inside an online serving system. This comes with its own set of challenges, including workload adaption, model replication onto hardware, inference scheduling, request batching, and more. In this work, we propose CascadeServe, which automates and optimizes end-to-end inference serving with cascades. CascadeServe operates in an offline and online phase. In the offline phase, the system pre-computes a gear plan that specifies how to serve inferences online. In the online phase, the gear plan allows the system to serve inferences while making near-optimal adaptations to the query load at negligible decision overheads. We find that CascadeServe saves 2-3x in cost across a wide spectrum of the latency-accuracy space when compared to state-of-the-art baselines on different workloads.

arxiv情報

著者 Ferdi Kossmann,Ziniu Wu,Alex Turk,Nesime Tatbul,Lei Cao,Samuel Madden
発行日 2024-06-20 15:47:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク