要約
Mixture-of-Expert (MoE) モデルは、 \emph{experts} という名前の異なるサブネットをトークンごとに選択的にアクティブ化することにより、従来のモデルよりも優れたパフォーマンスを発揮します。
このゲート計算により、事前に決定できない動的な通信が生成され、分散トレーニング プロセス中に \emph{静的} のままである既存の GPU 相互接続が困難になります。
この論文では、分散 MoE トレーニング中の \emph{中}のトポロジー再構成を可能にする、mFabric と呼ばれるこの種初のシステムを提唱します。
このビジョンに向けて、私たちはまず実稼働測定研究を実行し、MoE の動的通信パターンには \emph{強い局所性} があり、グローバルな再構成の要件が緩和されることを示します。
これに基づいて、光回線スイッチング (OCS) を使用して既存の電気相互接続の上に \emph{地域的に再構成可能な高帯域幅ドメイン} を設計および実装し、迅速な適応性を維持しながら拡張性を実現します。
私たちは、汎用ハードウェアと、32 個の A100 GPU にわたる \emph{in-training} トポロジー再構成を使用して最先端の MoE モデルをトレーニングするカスタマイズされた集合通信ランタイムを備えた、完全に機能する mFabric プロトタイプを構築しました。
大規模なパケットレベルのシミュレーションでは、mFabric がノンブロッキング ファットツリー ファブリックと同等のパフォーマンスを実現しながら、4 つの代表的な MoE モデルのトレーニング コスト効率 (1 ドルあたりのパフォーマンスなど) を 1.2$\times$–1.5$ 向上させることが示されています。
リンク帯域幅が 100 Gbps の場合は \times$、リンク帯域幅が 400 Gbps の場合は 1.9$\times$–2.3$\times$ になります。
要約(オリジナル)
Mixture-of-Expert (MoE) models outperform conventional models by selectively activating different subnets, named \emph{experts}, on a per-token basis. This gated computation generates dynamic communications that cannot be determined beforehand, challenging the existing GPU interconnects that remain \emph{static} during the distributed training process. In this paper, we advocate for a first-of-its-kind system, called mFabric, that unlocks topology reconfiguration \emph{during} distributed MoE training. Towards this vision, we first perform a production measurement study and show that the MoE dynamic communication pattern has \emph{strong locality}, alleviating the requirement of global reconfiguration. Based on this, we design and implement a \emph{regionally reconfigurable high-bandwidth domain} on top of existing electrical interconnects using optical circuit switching (OCS), achieving scalability while maintaining rapid adaptability. We have built a fully functional mFabric prototype with commodity hardware and a customized collective communication runtime that trains state-of-the-art MoE models with \emph{in-training} topology reconfiguration across 32 A100 GPUs. Large-scale packet-level simulations show that mFabric delivers comparable performance as the non-blocking fat-tree fabric while boosting the training cost efficiency (e.g., performance per dollar) of four representative MoE models by 1.2$\times$–1.5$\times$ and 1.9$\times$–2.3$\times$ at 100 Gbps and 400 Gbps link bandwidths, respectively.
arxiv情報
著者 | Xudong Liao,Yijun Sun,Han Tian,Xinchen Wan,Yilun Jin,Zilong Wang,Zhenghang Ren,Xinyang Huang,Wenxue Li,Kin Fai Tse,Zhizhen Zhong,Guyue Liu,Ying Zhang,Xiaofeng Ye,Yiming Zhang,Kai Chen |
発行日 | 2025-01-07 16:19:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google