Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity

要約

大規模な言語モデルにおける専門家(MOE)の混合物の外科は、はるかに大きなモデルパラメーターカウントと学習能力に対して実行コストのわずかな価格を約束します。
ただし、一部の専門家は他の専門家よりもはるかに頻繁に活性化されていることが一般的に観察されており、異なるデバイスで専門家を並行して実行する際にシステムの非効率性につながることが観察されています。
したがって、グループ化された専門家(MOGE)の混合物を紹介します。これは、選択中に専門家をグループ化し、自然のMOEよりも専門家のワークロードのバランスをとります。
トークンを制約して、事前定義された各専門家グループ内の同数の専門家をアクティブにします。
モデルの実行が複数のデバイスで配布されると、このアーキテクチャ設計により、デバイス全体でバランスの取れた計算負荷が保証され、特に推論フェーズのスループットが大幅に向上します。
さらに、Ascend NPUにPangue Pro Moeを構築します。これは、720億パラメーターのMogeに基づくまばらなモデルであり、そのうち160億がトークンごとに活性化されます。
Pangue Pro Moeの構成は、広範なシステムシミュレーション研究を通じてAscend 300i Duoと800i A2に最適化されています。
私たちの実験は、MOGEが実際に、モデルトレーニングとAscend NPUの推論の両方で、専門家の負荷分散とより効率的な実行につながることを示しています。
Pangue Pro Moeの推論パフォーマンスは、カードごとに1148トークン/sを達成し、投機的加速によりカードあたり1528トークン/sにさらに改善でき、同等の32Bおよび72Bの密度モデルを上回ります。
さらに、Ascend 300i Duoのモデル推論のための優れたコスト対パフォーマンス比を達成しています。
我々の研究は、Ascend NPUが大規模な並列化でPangue Pro Moeをトレーニングできることを示しています。

要約(オリジナル)

The surgence of Mixture of Experts (MoE) in Large Language Models promises a small price of execution cost for a much larger model parameter count and learning capacity, because only a small fraction of parameters are activated for each input token. However, it is commonly observed that some experts are activated far more often than others, leading to system inefficiency when running the experts on different devices in parallel. Therefore, we introduce Mixture of Grouped Experts (MoGE), which groups the experts during selection and balances the expert workload better than MoE in nature. It constrains tokens to activate an equal number of experts within each predefined expert group. When a model execution is distributed on multiple devices, this architectural design ensures a balanced computational load across devices, significantly enhancing throughput, particularly for the inference phase. Further, we build Pangu Pro MoE on Ascend NPUs, a sparse model based on MoGE with 72 billion total parameters, 16 billion of which are activated for each token. The configuration of Pangu Pro MoE is optimized for Ascend 300I Duo and 800I A2 through extensive system simulation studies. Our experiments indicate that MoGE indeed leads to better expert load balancing and more efficient execution for both model training and inference on Ascend NPUs. The inference performance of Pangu Pro MoE achieves 1148 tokens/s per card and can be further improved to 1528 tokens/s per card by speculative acceleration, outperforming comparable 32B and 72B Dense models. Furthermore, we achieve an excellent cost-to-performance ratio for model inference on Ascend 300I Duo. Our studies show that Ascend NPUs are capable of training Pangu Pro MoE with massive parallelization to make it a leading model within the sub-100B total parameter class, outperforming prominent open-source models like GLM-Z1-32B and Qwen3-32B.

arxiv情報

著者 Yehui Tang,Xiaosong Li,Fangcheng Liu,Wei Guo,Hang Zhou,Yaoyuan Wang,Kai Han,Xianzhi Yu,Jinpeng Li,Hui Zang,Fei Mi,Xiaojun Meng,Zhicheng Liu,Hanting Chen,Binfan Zheng,Can Chen,Youliang Yan,Ruiming Tang,Peifeng Qin,Xinghao Chen,Dacheng Tao,Yunhe Wang
発行日 2025-05-28 10:42:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク