要約
生成 AI、コンピューター ビジョン、自然言語処理の最近の発展により、さまざまな製品への AI モデルの統合が増加しています。
この AI の広範な導入には、これらのモデルを実稼働環境に導入するために多大な労力が必要です。
リアルタイム予測用の機械学習モデルをホストする場合、定義されたサービス レベル目標 (SLO) を満たし、信頼性を確保し、ダウンタイムを最小限に抑え、基盤となるインフラストラクチャの運用コストを最適化することが重要です。
大規模な機械学習モデルでは、SLO を満たすための効率的な推論のために GPU リソースが必要になることがよくあります。
こうした傾向を背景に、推論タスクに GPU アクセスを提供しながら、サーバーレス アーキテクチャで AI モデルをホストすることへの関心が高まっています。
この調査は、大規模な深層学習サービス システムに新たに生じた課題と最適化の機会を要約し、分類することを目的としています。
新しい分類法を提供し、最近の傾向を要約することにより、この調査が新しい最適化の観点に光を当て、大規模な深層学習サービス システムにおける新しい研究の動機付けとなることを願っています。
要約(オリジナル)
Recent developments in Generative AI, Computer Vision, and Natural Language Processing have led to an increased integration of AI models into various products. This widespread adoption of AI requires significant efforts in deploying these models in production environments. When hosting machine learning models for real-time predictions, it is important to meet defined Service Level Objectives (SLOs), ensuring reliability, minimal downtime, and optimizing operational costs of the underlying infrastructure. Large machine learning models often demand GPU resources for efficient inference to meet SLOs. In the context of these trends, there is growing interest in hosting AI models in a serverless architecture while still providing GPU access for inference tasks. This survey aims to summarize and categorize the emerging challenges and optimization opportunities for large-scale deep learning serving systems. By providing a novel taxonomy and summarizing recent trends, we hope that this survey could shed light on new optimization perspectives and motivate novel works in large-scale deep learning serving systems.
arxiv情報
| 著者 | Kamil Kojs | 
| 発行日 | 2023-11-22 18:46:05+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
