DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

要約

大規模な言語モデルの時代において、Mixture-of-Experts (MoE) は、モデル パラメーターをスケールアップする際の計算コストを管理するための有望なアーキテクチャです。
しかし、$N$ の専門家の中から上位 $K$ を活性化する GShard のような従来の MoE アーキテクチャは、専門家の専門性を確保するという課題に直面しています。つまり、各専門家が重複のない集中した知識を獲得するということです。
これに応えて、私たちは究極のエキスパート専門化に向けた DeepSeekMoE アーキテクチャを提案します。
これには 2 つの主要な戦略が含まれます。(1) 専門家を $mN$ の専門家に細かく分割し、そこから $mK$ をアクティブ化することで、アクティブ化された専門家のより柔軟な組み合わせが可能になります。
(2) $K_s$ の専門家を共有専門家として分離し、共通の知識を獲得し、ルート化された専門家の冗長性を軽減することを目的としています。
2B パラメーターを使用した適度なスケールから開始して、DeepSeekMoE 2B が 1.5 倍のエキスパート パラメーターと計算を備えた GShard 2.9B と同等のパフォーマンスを達成することを実証します。
さらに、DeepSeekMoE 2B は、MoE モデルの上限を設定する合計パラメータ数が同じである高密度対応物のパフォーマンスにほぼ近づきます。
その後、DeepSeekMoE を 16B パラメーターにスケールアップし、わずか約 40% の計算で LLaMA2 7B と同等のパフォーマンスを達成できることを示しました。
さらに、DeepSeekMoE を 145B パラメータにスケールアップするための予備的な取り組みでは、GShard アーキテクチャに対するその実質的な利点が一貫して検証され、わずか 28.5% (おそらく 18.2%) の計算を使用して、DeepSeek 67B に匹敵するパフォーマンスが示されました。

要約(オリジナル)

In the era of large language models, Mixture-of-Experts (MoE) is a promising architecture for managing computational costs when scaling up model parameters. However, conventional MoE architectures like GShard, which activate the top-$K$ out of $N$ experts, face challenges in ensuring expert specialization, i.e. each expert acquires non-overlapping and focused knowledge. In response, we propose the DeepSeekMoE architecture towards ultimate expert specialization. It involves two principal strategies: (1) finely segmenting the experts into $mN$ ones and activating $mK$ from them, allowing for a more flexible combination of activated experts; (2) isolating $K_s$ experts as shared ones, aiming at capturing common knowledge and mitigating redundancy in routed experts. Starting from a modest scale with 2B parameters, we demonstrate that DeepSeekMoE 2B achieves comparable performance with GShard 2.9B, which has 1.5 times the expert parameters and computation. In addition, DeepSeekMoE 2B nearly approaches the performance of its dense counterpart with the same number of total parameters, which set the upper bound of MoE models. Subsequently, we scale up DeepSeekMoE to 16B parameters and show that it achieves comparable performance with LLaMA2 7B, with only about 40% of computations. Further, our preliminary efforts to scale up DeepSeekMoE to 145B parameters consistently validate its substantial advantages over the GShard architecture, and show its performance comparable with DeepSeek 67B, using only 28.5% (maybe even 18.2%) of computations.

arxiv情報

著者 Damai Dai,Chengqi Deng,Chenggang Zhao,R. X. Xu,Huazuo Gao,Deli Chen,Jiashi Li,Wangding Zeng,Xingkai Yu,Y. Wu,Zhenda Xie,Y. K. Li,Panpan Huang,Fuli Luo,Chong Ruan,Zhifang Sui,Wenfeng Liang
発行日 2024-01-11 17:31:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク