On the Cost of Model-Serving Frameworks: An Experimental Evaluation

要約

機械学習 (ML) における推論フェーズは、予測を行うことを目的として、事前トレーニングされたモデルを新しいまだ見たことのないデータに適用するプロセスです。
推論フェーズでは、エンドユーザーは ML サービスと対話して、入力データに基づいて洞察、推奨事項、またはアクションを取得します。
このため、現在では、実稼働環境でモデルを効果的にデプロイおよび管理するために、サービス提供戦略が重要になっています。
これらの戦略により、時系列予測、画像分類、自然言語処理などの実世界のアプリケーションでモデルが利用可能で、スケーラブルで、信頼性が高く、パフォーマンスが高いことが保証されます。
このペーパーでは、4 つの異なるシナリオ (マルウェア検出、暗号コイン価格予測、画像分類、感情分析) の下で、広く使用されている 5 つのモデル サービング フレームワーク (TensorFlow Serving、TorchServe、MLServer、MLflow、および BentoML) のパフォーマンスを評価します。
TensorFlow Serving が深層学習 (DL) モデルの提供において他のすべてのフレームワークよりも優れたパフォーマンスを発揮できることを実証します。
さらに、DL 固有のフレームワーク (TensorFlow Serving および TorchServe) が 3 つの汎用 ML フレームワーク (BentoML、MLFlow、および MLServer) よりも大幅に低いレイテンシを示すことを示します。

要約(オリジナル)

In machine learning (ML), the inference phase is the process of applying pre-trained models to new, unseen data with the objective of making predictions. During the inference phase, end-users interact with ML services to gain insights, recommendations, or actions based on the input data. For this reason, serving strategies are nowadays crucial for deploying and managing models in production environments effectively. These strategies ensure that models are available, scalable, reliable, and performant for real-world applications, such as time series forecasting, image classification, natural language processing, and so on. In this paper, we evaluate the performances of five widely-used model serving frameworks (TensorFlow Serving, TorchServe, MLServer, MLflow, and BentoML) under four different scenarios (malware detection, cryptocoin prices forecasting, image classification, and sentiment analysis). We demonstrate that TensorFlow Serving is able to outperform all the other frameworks in serving deep learning (DL) models. Moreover, we show that DL-specific frameworks (TensorFlow Serving and TorchServe) display significantly lower latencies than the three general-purpose ML frameworks (BentoML, MLFlow, and MLServer).

arxiv情報

著者 Pasquale De Rosa,Yérom-David Bromberg,Pascal Felber,Djob Mvondo,Valerio Schiavoni
発行日 2024-11-15 16:36:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク