Merging Experts into One: Improving Computational Efficiency of Mixture of Experts

要約

言語モデルのサイズを拡大すると、通常、NLP タスクの目覚ましい進歩につながります。
しかし、多くの場合、計算コストの増大という代償が伴います。
まばらな専門家混合(MoE)は、入力ごとにパラメータの小さなサブセット(たとえば、1 人の専門家)をアクティブにすることでコストを削減できますが、アクティブにするエキスパートの数が増えると計算が大幅に増加し、実用性が制限されます。
計算コストを大幅に増加させることなく、専門家を追加する利点を維持できるでしょうか?
この論文では、まず複数のエキスパートを選択することの優位性を実証し、次に \textbf{\texttt{Merging Experts into One}} (MEO) と呼ばれる計算効率の高いアプローチを提案します。これにより、計算コストが 1 人のエキスパートの計算コストに削減されます。
広範な実験により、MEO が計算効率を大幅に向上させることが示されています。たとえば、FLOPS はバニラ MoE の 72.0G から 28.6G (MEO) に低下します。
さらに、トークンレベル MEO の効率とパフォーマンスをさらに強化するトークンレベルのアテンション ブロックを提案します。たとえば、GLUE ベンチマークの平均スコアは 83.3\% (MEO) 対 82.6\% (バニラ MoE) です。
私たちのコードは承認され次第公開されます。
コードは \url{https://github.com/Shwai-He/MEO} でリリースされます。

要約(オリジナル)

Scaling the size of language models usually leads to remarkable advancements in NLP tasks. But it often comes with a price of growing computational cost. Although a sparse Mixture of Experts (MoE) can reduce the cost by activating a small subset of parameters (e.g., one expert) for each input, its computation escalates significantly if increasing the number of activated experts, limiting its practical utility. Can we retain the advantages of adding more experts without substantially increasing the computational costs? In this paper, we first demonstrate the superiority of selecting multiple experts and then propose a computation-efficient approach called \textbf{\texttt{Merging Experts into One}} (MEO), which reduces the computation cost to that of a single expert. Extensive experiments show that MEO significantly improves computational efficiency, e.g., FLOPS drops from 72.0G of vanilla MoE to 28.6G (MEO). Moreover, we propose a token-level attention block that further enhances the efficiency and performance of token-level MEO, e.g., 83.3\% (MEO) vs. 82.6\% (vanilla MoE) average score on the GLUE benchmark. Our code will be released upon acceptance. Code will be released at: \url{https://github.com/Shwai-He/MEO}.

arxiv情報

著者 Shwai He,Run-Ze Fan,Liang Ding,Li Shen,Tianyi Zhou,Dacheng Tao
発行日 2023-11-21 20:30:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク