MoESD: Unveil Speculative Decoding’s Potential for Accelerating Sparse MoE

要約

大規模な言語モデル(LLM)は、多くのアプリケーションで顕著な成功を収めており、専門家(MOE)モデルの混合が大きな可能性を示しています。
従来の高密度モデルと比較して、MoEは計算を少なくするとパフォーマンスが向上します。
投機的デコード(SD)は、精度の損失なしにLLM推論を加速するために広く使用されている手法ですが、密なモデルでのみ効率的であると考えられています。
この作業では、中程度のバッチサイズの下で、MOEは驚くほど密集したモデルよりもSDから驚くほど利益を得ることを実証します。
さらに、MOEがSD加速度が効果的であると予想されるバッチサイズの範囲であるMOEが控えめになるにつれて、SD加速度がより広くなります。
SDに関与するトレードオフを定量的に理解するために、理論分析に基づいて信頼できるモデリングを開発します。
現在のSD研究は主にアルゴリズムの受け入れ率の改善に焦点を当てていますが、ワークロードとモデルアーキテクチャの変化は、高い受容率であってもSD加速度の低下につながる可能性があります。
この制限に対処するために、これらの効果を特徴付ける新しいメトリック「ターゲット効率」を導入し、研究者がシステムボトルネックを特定し、SD加速度をより包括的に理解するのに役立ちます。
プライベートサービングなどのシナリオについては、この作業は、既存のソリューションが苦労しているMOE推論をスピードアップするための新しい視点を明らかにします。
さまざまなGPUでの実験は、中程度のバッチサイズでQWEN2-57B-A14Bの最大2.29xスピードアップを示し、理論的予測を検証します。

要約(オリジナル)

Large Language Models (LLMs) have achieved remarkable success across many applications, with Mixture of Experts (MoE) models demonstrating great potential. Compared to traditional dense models, MoEs achieve better performance with less computation. Speculative decoding (SD) is a widely used technique to accelerate LLM inference without accuracy loss, but it has been considered efficient only for dense models. In this work, we first demonstrate that, under medium batch sizes, MoE surprisingly benefits more from SD than dense models. Furthermore, as MoE becomes sparser — the prevailing trend in MoE designs — the batch size range where SD acceleration is expected to be effective becomes broader. To quantitatively understand tradeoffs involved in SD, we develop a reliable modeling based on theoretical analyses. While current SD research primarily focuses on improving acceptance rates of algorithms, changes in workload and model architecture can still lead to degraded SD acceleration even with high acceptance rates. To address this limitation, we introduce a new metric ‘target efficiency’ that characterizes these effects, thus helping researchers identify system bottlenecks and understand SD acceleration more comprehensively. For scenarios like private serving, this work unveils a new perspective to speed up MoE inference, where existing solutions struggle. Experiments on different GPUs show up to 2.29x speedup for Qwen2-57B-A14B at medium batch sizes and validate our theoretical predictions.

arxiv情報

著者 Zongle Huang,Lei Zhu,Zongyuan Zhan,Ting Hu,Weikai Mao,Xianzhi Yu,Yongpan Liu,Tianyu Zhang
発行日 2025-06-13 14:54:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク