Lazarus: Resilient and Elastic Training of Mixture-of-Experts Models with Adaptive Expert Placement

要約

疎に活性化されたMoE(Mixture-of-Experts)アーキテクチャは、その計算コストに対するサブリニアスケーリングにより、大規模言語モデル(LLM)のさらなるスケーリングに採用されつつある。しかし、トレーニングのスケールが大きくなるにつれ、頻繁な失敗は依然として大きな課題となっている。すべてのGPUは障害が解決するまでアイドル状態で待機する必要があり、チェックポイントからトレーニングを再開しなければならないため、トレーニングの進捗が大幅に失われる可能性があります。効率的なフォールトトレラントトレーニングのための既存のソリューションは、弾力性に欠けるか、パイプライン並列に弾力性を組み込むことに依存していますが、MoEアーキテクチャで採用されているエキスパート並列戦略のため、MoEモデルには適用できません。 我々は、MoEモデルの弾力的で弾力的なトレーニングのためのシステムであるLazarusを発表する。Lazarusは、エキスパートの作業負荷の本質的な不均衡に対処し、トレーニングを高速化するために、適応的にエキスパートのレプリカを割り当てる。同時に、証明可能な最適エキスパート配置アルゴリズムを開発し、故障時の回復確率を最大化する。適応的なエキスパート配置と柔軟なトークンディスパッチャにより、Lazarusは障害発生後にも利用可能なすべてのノードをフルに活用することができ、アイドル状態のGPUはありません。我々の評価では、Lazarusは既存のMoEトレーニングシステムを、頻繁なノード故障の下で最大5.7倍、実際のスポットインスタンストレースで3.4倍上回ることが示された。

要約(オリジナル)

Sparsely-activated Mixture-of-Experts (MoE) architecture has increasingly been adopted to further scale large language models (LLMs) due to its sub-linear scaling for computation costs. However, frequent failures still pose significant challenges as training scales. The cost of even a single failure is significant, as all GPUs need to wait idle until the failure is resolved, potentially losing considerable training progress as training has to restart from checkpoints. Existing solutions for efficient fault-tolerant training either lack elasticity or rely on building resiliency into pipeline parallelism, which cannot be applied to MoE models due to the expert parallelism strategy adopted by the MoE architecture. We present Lazarus, a system for resilient and elastic training of MoE models. Lazarus adaptively allocates expert replicas to address the inherent imbalance in expert workload and speeds-up training, while a provably optimal expert placement algorithm is developed to maximize the probability of recovery upon failures. Through adaptive expert placement and a flexible token dispatcher, Lazarus can also fully utilize all available nodes after failures, leaving no GPU idle. Our evaluation shows that Lazarus outperforms existing MoE training systems by up to 5.7x under frequent node failures and 3.4x on a real spot instance trace.

arxiv情報

著者 Yongji Wu,Wenjie Qu,Tianyang Tao,Zhuang Wang,Wei Bai,Zhuohao Li,Yuan Tian,Jiaheng Zhang,Matthew Lentz,Danyang Zhuo
発行日 2024-07-05 17:13:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.DC, cs.LG パーマリンク