IPA: Inference Pipeline Adaptation to Achieve High Accuracy and Cost-Efficiency

要約

エンドツーエンドのレイテンシー要件が厳しいため、ML 実稼働システムでは、高速、正確、かつコスト効率の高い推論を実現するためにマルチモデル推論パイプラインを効率的に最適化することが重要な課題です。
推論パイプラインにおける精度とコストの広大で複雑なトレードオフ領域の探索を簡素化するために、プロバイダーは多くの場合、そのうちの 1 つを検討することを選択します。
ただし、精度とコストのトレードオフを調整することが課題となります。
この課題に対処し、推論パイプラインのモデル バリアントを効率的に管理するソリューションを提案するために、深層学習タスクごとにモデル バリアントを効率的に活用するオンラインの深層学習推論パイプライン適応システムである IPA を紹介します。
モデル バリアントは、リソース要件、レイテンシー、精度が異なる、同じ深層学習タスクの事前トレーニング済みモデルの異なるバージョンです。
IPA は、バッチ サイズ、レプリケーション、およびモデル バリアントを動的に構成して、精度を最適化し、コストを最小限に抑え、整数計画法を使用してユーザー定義のレイテンシ SLA を満たすようにします。
さまざまなワークロードや動的なトラフィック パターンに適応しながら、精度とコスト目標の間のさまざまなトレードオフを達成するための複数の目標設定をサポートします。
5 つの現実世界の推論パイプラインを使用した Kubernetes 実装に関する広範な実験により、IPA が 5% 未満の最小限のコスト増加で正規化精度を最大 35% 向上させることが実証されました。

要約(オリジナル)

Efficiently optimizing multi-model inference pipelines for fast, accurate, and cost-effective inference is a crucial challenge in ML production systems, given their tight end-to-end latency requirements. To simplify the exploration of the vast and intricate trade-off space of accuracy and cost in inference pipelines, providers frequently opt to consider one of them. However, the challenge lies in reconciling accuracy and cost trade-offs. To address this challenge and propose a solution to efficiently manage model variants in inference pipelines, we present IPA, an online deep-learning Inference Pipeline Adaptation system that efficiently leverages model variants for each deep learning task. Model variants are different versions of pre-trained models for the same deep learning task with variations in resource requirements, latency, and accuracy. IPA dynamically configures batch size, replication, and model variants to optimize accuracy, minimize costs, and meet user-defined latency SLAs using Integer Programming. It supports multi-objective settings for achieving different trade-offs between accuracy and cost objectives while remaining adaptable to varying workloads and dynamic traffic patterns. Extensive experiments on a Kubernetes implementation with five real-world inference pipelines demonstrate that IPA improves normalized accuracy by up to 35% with a minimal cost increase of less than 5%.

arxiv情報

著者 Saeid Ghafouri,Kamran Razavi,Mehran Salmani,Alireza Sanaee,Tania Lorido-Botran,Lin Wang,Joseph Doyle,Pooyan Jamshidi
発行日 2023-08-24 15:48:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG, cs.PF パーマリンク