mFabric: An Efficient and Scalable Fabric for Mixture-of-Experts Training

要約

混合物(MOE)モデルは、トークンごとに異なるサブネット(\ empherss}という名前の異なるサブネットを選択的にアクティブにすることで、従来のモデルよりも優れています。
このゲート計算は、事前に決定できない動的通信を生成し、分散トレーニングプロセス中に既存のGPU相互接続に挑戦します。
この論文では、Topology Reconfiguration \ Emphing {of}分散型MOEトレーニングのロックを解除するMFABRICと呼ばれる最初の類似システムを提唱しています。
このビジョンに向けて、最初に実稼働測定研究を実施し、MOEの動的コミュニケーションパターンに{強い局所性}があることを示し、グローバルな再構成の要件を緩和します。
これに基づいて、光学回路スイッチング(OCS)を使用して既存の電気的相互接続の上に\ emphing {地域的に再構成可能な高帯域幅ドメイン}を設計および実装し、迅速な適応性を維持しながらスケーラビリティを実現します。
コモディティハードウェアを備えた完全に機能的なMFABRICプロトタイプと、32 A100 GPUにわたって\ end {in-training}トポロジの再構成で最新のMOEモデルを訓練するカスタマイズされた集合的な通信ランタイムを構築しました。
大規模なパケットレベルのシミュレーションは、MFABRICが4つの代表的なMOEモデルのトレーニングコスト効率(たとえば、パフォーマンス)を1.5 $ \ Times $および1.9 $ \ $ \ TIMES $ -2.3 $ \ $ \ TIMES $ 400 GBPS BANDWIDSで高める一方で、MFABRICが非ブロッキング脂肪ツリーファブリックとして同等のパフォーマンスを提供することを示しています。

要約(オリジナル)

Mixture-of-Expert (MoE) models outperform conventional models by selectively activating different subnets, named \emph{experts}, on a per-token basis. This gated computation generates dynamic communications that cannot be determined beforehand, challenging the existing GPU interconnects that remain \emph{static} during the distributed training process. In this paper, we advocate for a first-of-its-kind system, called mFabric, that unlocks topology reconfiguration \emph{during} distributed MoE training. Towards this vision, we first perform a production measurement study and show that the MoE dynamic communication pattern has \emph{strong locality}, alleviating the requirement of global reconfiguration. Based on this, we design and implement a \emph{regionally reconfigurable high-bandwidth domain} on top of existing electrical interconnects using optical circuit switching (OCS), achieving scalability while maintaining rapid adaptability. We have built a fully functional mFabric prototype with commodity hardware and a customized collective communication runtime that trains state-of-the-art MoE models with \emph{in-training} topology reconfiguration across 32 A100 GPUs. Large-scale packet-level simulations show that mFabric delivers comparable performance as the non-blocking fat-tree fabric while boosting the training cost efficiency (e.g., performance per dollar) of four representative MoE models by 1.2$\times$–1.5$\times$ and 1.9$\times$–2.3$\times$ at 100 Gbps and 400 Gbps link bandwidths, respectively.

arxiv情報

著者 Xudong Liao,Yijun Sun,Han Tian,Xinchen Wan,Yilun Jin,Zilong Wang,Zhenghang Ren,Xinyang Huang,Wenxue Li,Kin Fai Tse,Zhizhen Zhong,Guyue Liu,Ying Zhang,Xiaofeng Ye,Yiming Zhang,Kai Chen
発行日 2025-06-17 16:02:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NI パーマリンク