HMoE: Heterogeneous Mixture of Experts for Language Modeling

要約

Mixture of Experts (MoE) は、モデル パラメーターのサブセットを選択的にアクティブにすることで、優れたパフォーマンスと計算効率を提供します。
従来、MoE モデルでは、それぞれが同じ能力を持つ同種の専門家を使用していました。
ただし、入力データの複雑さの変化により、多様な能力を持つ専門家が必要となる一方、同種の MoE は専門家の効果的な専門化と効率的なパラメーターの利用を妨げます。
この研究では、専門家の規模が異なるため、多様な能力を有する、新しい専門家の異種混合(HMoE)を提案します。
この異質性により、より専門化した専門家がさまざまなトークンの複雑さをより効果的に処理できるようになります。
エキスパートのアクティブ化の不均衡に対処するために、小規模なエキスパートの頻繁なアクティブ化を促進し、計算効率とパラメータの利用を強化する新しいトレーニング目標を提案します。
広範な実験により、HMoE は、より少ない有効化パラメータでより低い損失を達成し、さまざまな事前トレーニング評価ベンチマークで従来の均一な MoE モデルよりも優れたパフォーマンスを発揮することが実証されました。
コードは承認され次第公開されます。

要約(オリジナル)

Mixture of Experts (MoE) offers remarkable performance and computational efficiency by selectively activating subsets of model parameters. Traditionally, MoE models use homogeneous experts, each with identical capacity. However, varying complexity in input data necessitates experts with diverse capabilities, while homogeneous MoE hinders effective expert specialization and efficient parameter utilization. In this study, we propose a novel Heterogeneous Mixture of Experts (HMoE), where experts differ in size and thus possess diverse capacities. This heterogeneity allows for more specialized experts to handle varying token complexities more effectively. To address the imbalance in expert activation, we propose a novel training objective that encourages the frequent activation of smaller experts, enhancing computational efficiency and parameter utilization. Extensive experiments demonstrate that HMoE achieves lower loss with fewer activated parameters and outperforms conventional homogeneous MoE models on various pre-training evaluation benchmarks. Codes will be released upon acceptance.

arxiv情報

著者 An Wang,Xingwu Sun,Ruobing Xie,Shuaipeng Li,Jiaqi Zhu,Zhen Yang,Pinxue Zhao,J. N. Han,Zhanhui Kang,Di Wang,Naoaki Okazaki,Cheng-zhong Xu
発行日 2024-08-20 09:35:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク