要約
サーバーレス コンピューティングの進歩に伴い、労力を必要としないスケーラビリティとコスト効率を考慮して、サーバーレス プラットフォーム上で機械学習 (ML) 推論サービスを実行することが提唱されています。
Mixture-of-Experts (MoE) モデルは、並列エキスパート ネットワークを備えた大規模なモデルを可能にする、今日の主要なタイプのモデル アーキテクチャです。
サーバーレス コンピューティング上で大規模な MoE モデルを提供することは潜在的に有益ですが、コスト効率の高いサーバーレス MoE の導入とパフォーマンスの保証のために、専門家の人気の偏りや MoE モデルの実行におけるスキャッターギャザ通信のボトルネックに対処するという大きな課題があるため、十分に検討されていません。
私たちは、専門家の選択を効果的に予測し、モデル実行とのパイプライン通信を行い、MoE モデルの提供にかかる全体的な請求コストを最小限に抑える、最適化された MoE モデルの展開とサーバーレス プラットフォーム上で提供される分散推論を研究します。
特に、専門家の選択と最適な請求コストを達成する最適な MoE 展開を学習するための多次元イプシロン貪欲検索を備えたベイズ最適化フレームワークを提案します。
2) 柔軟なパイプライン化されたスキャッター/ギャザー通信。
3) 分散型 MoE サービスのための最適なモデル展開アルゴリズム。
AWS Lambda での広範な実験により、当社の設計により、十分な推論スループットを維持しながら、CPU クラスターと比較してすべての MoE レイヤーの請求コストが少なくとも 75.67% 削減されることがわかりました。
サーバーレス コンピューティングの LambdaML と比較して、当社の設計は最大 18.76% のスループット低下で 43.41% のコスト削減を実現します。
要約(オリジナル)
With the advancement of serverless computing, running machine learning (ML) inference services over a serverless platform has been advocated, given its labor-free scalability and cost effectiveness. Mixture-of-Experts (MoE) models have been a dominant type of model architectures to enable large models nowadays, with parallel expert networks. Serving large MoE models on serverless computing is potentially beneficial, but has been underexplored due to substantial challenges in handling the skewed expert popularity and scatter-gather communication bottleneck in MoE model execution, for cost-efficient serverless MoE deployment and performance guarantee. We study optimized MoE model deployment and distributed inference serving on a serverless platform, that effectively predict expert selection, pipeline communication with model execution, and minimize the overall billed cost of serving MoE models. Especially, we propose a Bayesian optimization framework with multi-dimensional epsilon-greedy search to learn expert selections and optimal MoE deployment achieving optimal billed cost, including: 1) a Bayesian decision-making method for predicting expert popularity; 2) flexibly pipelined scatter-gather communication; and 3) an optimal model deployment algorithm for distributed MoE serving. Extensive experiments on AWS Lambda show that our designs reduce the billed cost of all MoE layers by at least 75.67% compared to CPU clusters while maintaining satisfactory inference throughput. As compared to LambdaML in serverless computing, our designs achieves 43.41% lower cost with a throughput decrease of at most 18.76%.
arxiv情報
著者 | Mengfan Liu,Wei Wang,Chuan Wu |
発行日 | 2025-01-09 15:29:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google