Occult: Optimizing Collaborative Communication across Experts for Accelerated Parallel MoE Training and Inference

要約

混合混合物(MOE)アーキテクチャは、専門家の並列性を備えた印象的な計算効率を達成することができ、これはデバイス間のすべての通信に大きく依存しています。
残念ながら、このような通信オーバーヘッドは通常、ランタイム全体のかなりの部分を構成し、最新のMOEモデルの分散トレーニングと推論のスケーラビリティを妨げます(大規模トレーニングでは40ドル以上の\%$ランタイムを消費します)。
この論文では、まずこの本質的な制限を説明するために共同コミュニケーションを定義し、次にコミュニケーションコストを削減するためにシステムおよびアルゴリズムレベルのイノベーションを提案します。
具体的には、1つのトークンによって共同活性化された専門家のペアを考えると、それらを「コラボレーション」と呼びます。これは、同じデバイスに保持されているかどうかに応じて、2ドルのケースを総合的およびインターコラボレーションとしています。
私たちのパイロット調査により、耐性内の割合を増強すると、大規模な専門家の並列性が加速できることが明らかになりました。
Occultと呼ばれる、MOEトレーニングと推論を加速するために、共同コミュニケーションを戦略的に最適化するようになります。
当社のデザインは、通信コストを削減して正確な結果を提供するか、修正された微調整によって実現されたコラボレーション剪定によるコストを制御できるようにすることができます。
さまざまなMOE-LLMでの包括的な実験は、オカルトが人気のある最先端の推論やトレーニングフレームワーク($ 1.5 \ Times $を超えるタスクとモデルで$ 1.5 \ Times $速度)よりも高速であることを示しています。
コードは$ \ href {https://github.com/unites-lab/occult} {https://github.com/unites-lab/occult} $で入手できます。

要約(オリジナル)

Mixture-of-experts (MoE) architectures could achieve impressive computational efficiency with expert parallelism, which relies heavily on all-to-all communication across devices. Unfortunately, such communication overhead typically constitutes a significant portion of the total runtime, hampering the scalability of distributed training and inference for modern MoE models (consuming over $40\%$ runtime in large-scale training). In this paper, we first define collaborative communication to illustrate this intrinsic limitation, and then propose system- and algorithm-level innovations to reduce communication costs. Specifically, given a pair of experts co-activated by one token, we call them ‘collaborated’, which comprises $2$ cases as intra- and inter-collaboration, depending on whether they are kept on the same device. Our pilot investigations reveal that augmenting the proportion of intra-collaboration can accelerate expert parallelism at scale. It motivates us to strategically optimize collaborative communication for accelerated MoE training and inference, dubbed Occult. Our designs are capable of either delivering exact results with reduced communication cost or controllably minimizing the cost with collaboration pruning, materialized by modified fine-tuning. Comprehensive experiments on various MoE-LLMs demonstrate that Occult can be faster than popular state-of-the-art inference or training frameworks (more than $1.5\times$ speed up across multiple tasks and models) with comparable or superior quality compared to the standard fine-tuning. Code is available at $\href{https://github.com/UNITES-Lab/Occult}{https://github.com/UNITES-Lab/Occult}$.

arxiv情報

著者 Shuqing Luo,Pingzhi Li,Jie Peng,Hanrui Wang,Yang,Zhao,Yu,Cao,Yu Cheng,Tianlong Chen
発行日 2025-05-19 16:50:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク