DA-MoE: Towards Dynamic Expert Allocation for Mixture-of-Experts Models

要約

トランスフォーマーベースの専門家混合 (MoE) モデルは、自然言語処理 (NLP) における最近のいくつかの技術進歩を推進してきました。
これらの MoE モデルは、入力トークンをルーティングするためにどのエキスパートをアクティブにするかを決定するルーター メカニズムを採用しています。
ただし、既存のルーター メカニズムでは各トークンに固定数の専門家が割り当てられており、入力トークンごとに異なる重要性が無視されています。
この研究では、効果的なトークン重要度の尺度に基づいて専門家混合(DA-MoE)モデルの可変数の専門家を動的に割り当てる新しい動的ルーターメカニズムを提案します。
まず、Transformer のアテンション メカニズムが、トークンの重要性を計算する自然かつ効果的な方法を提供することを示します。
第 2 に、最適なエキスパート数 (K) を効果的に決定し、各入力トークンに上位 K 個のエキスパートを割り当てる動的ルーター メカニズムを提案します。
第三に、いくつかのベンチマーク データセットでの包括的な実験により、当社の DA-MoE アプローチが、人気のある GLUE ベンチマークでの最先端の Transformer ベースの MoE モデルよりも一貫して優れていることが実証されました。

要約(オリジナル)

Transformer-based Mixture-of-Experts (MoE) models have been driving several recent technological advancements in Natural Language Processing (NLP). These MoE models adopt a router mechanism to determine which experts to activate for routing input tokens. However, existing router mechanisms allocate a fixed number of experts to each token, which neglects the varying importance of different input tokens. In this study, we propose a novel dynamic router mechanism that Dynamically Allocates a variable number of experts for Mixture-of-Experts (DA-MoE) models based on an effective token importance measure. First, we show that the Transformer attention mechanism provides a natural and effective way of calculating token importance. Second, we propose a dynamic router mechanism that effectively decides the optimal number of experts (K) and allocates the top-K experts for each input token. Third, comprehensive experiments on several benchmark datasets demonstrate that our DA-MoE approach consistently outperforms the state-of-the-art Transformer based MoE model on the popular GLUE benchmark.

arxiv情報

著者 Maryam Akhavan Aghdam,Hongpeng Jin,Yanzhao Wu
発行日 2024-09-10 17:36:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク