MoE-Infinity: Offloading-Efficient MoE Model Serving

要約

このペーパーでは、疎な専門家混合 (MoE) モデル向けのオフロード効率の高いサービス システムである MoE-Infinity について説明します。
オフロードを最適化するために、MoE-Infinity は、エキスパート アクティベーションのための新しいリクエスト レベルのトレースを実現し、選択的アクティベーション、グループ アクティベーション、偏った再利用などの MoE のまばらな実行パターンをキャプチャします。
MoE-Infinity は、リクエスト レベルのトレースを活用して、効果的なエキスパート プリフェッチとエキスパート キャッシングを実行し、ホスト メモリから GPU メモリへのモデル パラメータの転送において高い効率を実現します。
実験結果は、MoE-Infinity が、MoE-Infinity よりも最大 4 倍多くの GPU リソースを必要とする高価なフル GPU 展開に匹敵する低遅延を実現することを示しています。
DeepSpeed-Inference、Llama.cpp、Mixtral Offloading、BrainStorm などのオフロードをサポートする LLM サービス提供システムと比較して、MoE-Infinity は優れた遅延パフォーマンスを示し、LLM タスクの大規模なコレクションに対してさまざまな MoE モデルを提供する際に 2 ~ 20 倍の改善を実現します。
MoE-Infinity のソース コードは https://github.com/TorchMoE/MoE-Infinity で公開されています。

要約(オリジナル)

This paper presents MoE-Infinity, an offloading-efficient serving system for sparse mixture-of-experts (MoE) models. To optimize offloading, MoE-Infinity achieves novel request-level tracing for expert activation, capturing MoE’s sparse execution patterns such as selective activation, group activation, and skewed reuse. Leveraging the request-level trace, MoE-Infinity performs effective expert prefetching and expert caching, achieving high efficiency in transferring model parameters from host memory to GPU memory. Experimental results demonstrate that MoE-Infinity achieves low latency comparable to expensive full-GPU deployments, which require up to 4X more GPU resources than MoE-Infinity. Compared to offloading-supporting LLM serving systems such as DeepSpeed-Inference, Llama.cpp, Mixtral Offloading, and BrainStorm, MoE-Infinity exhibits superior latency performance, providing 2-20X improvements when serving various MoE models for a large collection of LLM tasks. MoE-Infinity’s source code is publicly available a https://github.com/TorchMoE/MoE-Infinity

arxiv情報

著者 Leyang Xue,Yao Fu,Zhan Lu,Luo Mai,Mahesh Marina
発行日 2024-08-01 13:21:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.PF パーマリンク