要約
専門家(MOE)と1兆近くのパラメーターの混合物を備えたまばらな大手言語モデル(LLM)が、最も有能な言語モデルの領域を支配しています。
ただし、大規模なモデルスケールは、基礎となるソフトウェアおよびハードウェアシステムに大きな課題をもたらします。
この論文では、Ascend NPUでそのような規模を活用するためのレシピを明らかにすることを目指しています。
主要な目標は、動的スパースモデル構造の下でのコンピューティングリソースのより良い使用と、実際のハードウェアの予想されるパフォーマンスゲインを実現することです。
高価な実験を繰り返し実行せずにAscend NPUに適したモデル構成を選択するために、シミュレーションを活用して、さまざまなモデルハイパーパラメーターのトレードオフを比較します。
この研究は、7180億パラメーターを持つまばらなLLMであるPangu Ultra Moeにつながり、シミュレーション結果を検証するためにモデルで実験を実施しました。
システム側では、NPUデバイス間の通信を最適化して同期オーバーヘッドを減らすために、専門家の並列性を掘り下げます。
また、デバイス内のメモリ効率を最適化して、パラメーターとアクティベーション管理のオーバーヘッドをさらに削減します。
最終的に、Pange Ultra Moeをトレーニングするときに30.0%のMFUを達成し、6K Ascend NPUでDeepSeek R1のパフォーマンスに匹敵し、Ascendシステムが最先端の言語モデルのすべてのトレーニング段階を活用できることを示しています。
広範な実験は、私たちのレシピがMOEを使用した大規模なスパース言語モデルの効率的なトレーニングにつながる可能性があることを示しています。
また、将来の参照のためにそのようなモデルの行動も研究します。
要約(オリジナル)
Sparse large language models (LLMs) with Mixture of Experts (MoE) and close to a trillion parameters are dominating the realm of most capable language models. However, the massive model scale poses significant challenges for the underlying software and hardware systems. In this paper, we aim to uncover a recipe to harness such scale on Ascend NPUs. The key goals are better usage of the computing resources under the dynamic sparse model structures and materializing the expected performance gain on the actual hardware. To select model configurations suitable for Ascend NPUs without repeatedly running the expensive experiments, we leverage simulation to compare the trade-off of various model hyperparameters. This study led to Pangu Ultra MoE, a sparse LLM with 718 billion parameters, and we conducted experiments on the model to verify the simulation results. On the system side, we dig into Expert Parallelism to optimize the communication between NPU devices to reduce the synchronization overhead. We also optimize the memory efficiency within the devices to further reduce the parameter and activation management overhead. In the end, we achieve an MFU of 30.0% when training Pangu Ultra MoE, with performance comparable to that of DeepSeek R1, on 6K Ascend NPUs, and demonstrate that the Ascend system is capable of harnessing all the training stages of the state-of-the-art language models. Extensive experiments indicate that our recipe can lead to efficient training of large-scale sparse language models with MoE. We also study the behaviors of such models for future reference.
arxiv情報
著者 | Yehui Tang,Yichun Yin,Yaoyuan Wang,Hang Zhou,Yu Pan,Wei Guo,Ziyang Zhang,Miao Rang,Fangcheng Liu,Naifu Zhang,Binghan Li,Yonghan Dong,Xiaojun Meng,Yasheng Wang,Dong Li,Yin Li,Dandan Tu,Can Chen,Youliang Yan,Fisher Yu,Ruiming Tang,Yunhe Wang,Botian Huang,Bo Wang,Boxiao Liu,Changzheng Zhang,Da Kuang,Fei Liu,Gang Huang,Jiansheng Wei,Jiarui Qin,Jie Ran,Jinpeng Li,Jun Zhao,Liang Dai,Lin Li,Liqun Deng,Peifeng Qin,Pengyuan Zeng,Qiang Gu,Shaohua Tang,Shengjun Cheng,Tao Gao,Tao Yu,Tianshu Li,Tianyu Bi,Wei He,Weikai Mao,Wenyong Huang,Wulong Liu,Xiabing Li,Xianzhi Yu,Xueyu Wu,Xu He,Yangkai Du,Yan Xu,Ye Tian,Yimeng Wu,Yongbing Huang,Yong Tian,Yong Zhu,Yue Li,Yufei Wang,Yuhang Gai,Yujun Li,Yu Luo,Yunsheng Ni,Yusen Sun,Zelin Chen,Zhe Liu,Zhicheng Liu,Zhipeng Tu,Zilin Ding,Zongyuan Zhan |
発行日 | 2025-05-07 15:46:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google