Tutel: Adaptive Mixture-of-Experts at Scale

要約

近年、Mixture-of-Experts(MoE)は、スパース計算によって計算コストを削減しながら、モデル容量を1兆個以上のパラメータに拡張できる、深層学習の有望な技術として注目されています。MoEは超大規模モデルの新たなフロンティアを開く一方で、MoEの動的性質とシステムの静的並列/パイプライン化のミスマッチにより、数千台のGPU上での実装は制限されてきました。本発表では、動的に適応する並列性とパイプラインを持つMoEのための、拡張性の高いスタック設計と実装であるTutelを紹介します。Tutelは、実行時に適応的な並列性切り替えと適応的なパイプライン化を実現し、それぞれ最大1.74倍、2.00倍のシングルMoEレイヤーの高速化を達成する。また、MoE通信の高速化のために新しい2次元階層型アルゴリズムを提案し、2,048GPUで最大20.7倍まで従来の最先端を上回る性能を達成しました。Tutelは、すべての技術を集約することで、最終的に16GPUと2,048GPUにおいて、Fairseq: MetaのFacebook AI Research Sequence-to-Sequence Toolkitに対して、単一のMoE層でそれぞれ4.96倍と5.75倍の速度向上を達成しました(Tutelは現在Fairseqに部分採用されています)。Tutelのソースコードは公開されています: https://github.com/microsoft/tutel .我々の評価では、TutelはSwin Transformer V2という最先端のコンピュータビジョンアーキテクチャ上に構築されたSwinV2-MoEという実世界のMoEベースのモデルを効率的かつ効果的に実行することができます。効率性に関しては、TutelはSwinV2-MoEを高速化し、Fairseqに比べて学習と推論でそれぞれ最大1.55倍と2.11倍の高速化を達成しました。また、SwinV2-MoEモデルは、事前学習とCOCO物体検出のようなダウンストリームのコンピュータビジョンタスクの両方で、対応する密なモデルよりも優れた精度を達成し、エンドツーエンドの実世界モデルの学習と推論に対するTutelの準備の良さを示しています。SwinV2-MoEは、https://github.com/microsoft/Swin-Transformer でオープンソース化されています。

要約(オリジナル)

In recent years, Mixture-of-Experts (MoE) has emerged as a promising technique for deep learning that can scale the model capacity to trillion-plus parameters while reducing the computing cost via sparse computation. While MoE opens a new frontier of exceedingly large models, its implementation over thousands of GPUs has been limited due to mismatch between the dynamic nature of MoE and static parallelism/pipelining of the system. We present Tutel, a highly scalable stack design and implementation for MoE with dynamically adaptive parallelism and pipelining. Tutel delivers adaptive parallelism switching and adaptive pipelining at runtime, which achieves up to 1.74x and 2.00x single MoE layer speedup, respectively. We also propose a novel two-dimensional hierarchical algorithm for MoE communication speedup that outperforms the previous state-of-the-art up to 20.7x over 2,048 GPUs. Aggregating all techniques, Tutel finally delivers 4.96x and 5.75x speedup of a single MoE layer on 16 GPUs and 2,048 GPUs, respectively, over Fairseq: Meta’s Facebook AI Research Sequence-to-Sequence Toolkit (Tutel is now partially adopted by Fairseq). Tutel source code is available in public: https://github.com/microsoft/tutel . Our evaluation shows that Tutel efficiently and effectively runs a real-world MoE-based model named SwinV2-MoE, built upon Swin Transformer V2, a state-of-the-art computer vision architecture. On efficiency, Tutel accelerates SwinV2-MoE, achieving up to 1.55x and 2.11x speedup in training and inference over Fairseq, respectively. On effectiveness, the SwinV2-MoE model achieves superior accuracy in both pre-training and down-stream computer vision tasks such as COCO object detection than the counterpart dense model, indicating the readiness of Tutel for end-to-end real-world model training and inference. SwinV2-MoE is open sourced in https://github.com/microsoft/Swin-Transformer .

arxiv情報

著者 Changho Hwang,Wei Cui,Yifan Xiong,Ziyue Yang,Ze Liu,Han Hu,Zilong Wang,Rafael Salas,Jithin Jose,Prabhat Ram,Joe Chau,Peng Cheng,Fan Yang,Mao Yang,Yongqiang Xiong
発行日 2022-06-07 15:20:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.DC パーマリンク