FSD-Inference: Fully Serverless Distributed Inference with Scalable Cloud Communication

要約

サーバーレス コンピューティングは、魅力的なスケーラビリティ、弾力性、コスト効率を提供します。
ただし、メモリ、CPU、関数の実行時間に関する制約により、データ集約型のアプリケーションや機械学習 (ML) ワークロードへの導入が妨げられてきました。
従来の「サーバーフル」プラットフォームでは、高速ネットワークと、MPI や共有メモリなどの確立されたプロセス間通信 (IPC) メカニズムを介した分散計算が可能です。
サーバーレス領域にそのようなソリューションが存在しない場合、重大な IPC 要件を伴う並列計算は困難になります。
私たちは、分散 ML 推論のための初の完全サーバーレスで拡張性の高いシステムである FSD-Inference を紹介します。
私たちは、Function-as-a-Service (FaaS) コンピューティングと組み合わせて潜在的な通信チャネルを探索し、サーバーレスのデータ集約型コンピューティングのコンテキスト内で分散 ML のための最先端のソリューションを設計します。
クラウドベースのパブリッシュ/サブスクライブ/キューイングとオブジェクト ストレージの両方を活用した、ML 推論ワークロード用の新しい完全サーバーレス通信スキームを導入します。
パブリッシュ/サブスクライブ/キューイング サービスを、オブジェクト ストレージと同等のパフォーマンスで FaaS IPC に適応させながら、高い並列処理レベルでコストを大幅に削減できる方法を示します。
私たちは、さまざまなサイズのベンチマーク DNN に対して詳細な実験を実施します。
結果は、サーバーベースの代替手段と比較した場合、FSD 推論はコスト効率とスケーラビリティが大幅に優れており、最適化された HPC ソリューションに対しても競争力のあるパフォーマンスを達成できることを示しています。
実験では、当社のサーバーレス ソリューションが大規模な分散ワークロードを処理し、高度な FaaS 並列処理を活用できることも確認されています。

要約(オリジナル)

Serverless computing offers attractive scalability, elasticity and cost-effectiveness. However, constraints on memory, CPU and function runtime have hindered its adoption for data-intensive applications and machine learning (ML) workloads. Traditional ‘server-ful’ platforms enable distributed computation via fast networks and well-established inter-process communication (IPC) mechanisms such as MPI and shared memory. In the absence of such solutions in the serverless domain, parallel computation with significant IPC requirements is challenging. We present FSD-Inference, the first fully serverless and highly scalable system for distributed ML inference. We explore potential communication channels, in conjunction with Function-as-a-Service (FaaS) compute, to design a state-of-the-art solution for distributed ML within the context of serverless data-intensive computing. We introduce novel fully serverless communication schemes for ML inference workloads, leveraging both cloud-based publish-subscribe/queueing and object storage offerings. We demonstrate how publish-subscribe/queueing services can be adapted for FaaS IPC with comparable performance to object storage, while offering significantly reduced cost at high parallelism levels. We conduct in-depth experiments on benchmark DNNs of various sizes. The results show that when compared to server-based alternatives, FSD-Inference is significantly more cost-effective and scalable, and can even achieve competitive performance against optimized HPC solutions. Experiments also confirm that our serverless solution can handle large distributed workloads and leverage high degrees of FaaS parallelism.

arxiv情報

著者 Joe Oakley,Hakan Ferhatosmanoglu
発行日 2024-03-22 13:31:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG パーマリンク