Towards Being Parameter-Efficient: A Stratified Sparsely Activated Transformer with Dynamic Capacity

要約

【タイトル】パラメータ効率を向上させるために:動的容量を備えた層状疎にアクティベートされたトランスフォーマー

【要約】

– パラメータ数を増やし、トークンあたりの低いコンピュータ要件を維持するMixture-of-experts(MoE)モデルが、疎なアクティベーションを使用することで効果を発揮することが示されています。
– しかし、最近の研究は、MoEモデルが本質的にパラメーター効率が悪いことを確立しており、専門家数が増えるにつれてパフォーマンスの向上が低下するという。このパラメーター効率の低さは、すべての専門家に同じ容量があることによるものと仮定され、これは異なるトークンまたはタスクに必要な複雑さの要件に十分対応できない可能性がある。
– このため、Stratified Mixture of Experts(SMoE)モデルを提案し、層状構造を特徴とし、異なるトークンに動的容量を割り当てることができるようにしました。
– SMoEは、2つの多言語機械翻訳ベンチマークでの効果を実証し、複数の最先端のMoEモデルを上回りました。
– 15言語のデータセットでは、SMoEは平均で+ 0.93 BLEUポイントでバニラMoEよりも翻訳品質を向上させました。
– さらに、SMoEはパラメータ効率が高く、バニラMoEと同等の性能を、およそ50%少ないパラメーターで発揮します。

要約(オリジナル)

Mixture-of-experts (MoE) models that employ sparse activation have demonstrated effectiveness in significantly increasing the number of parameters while maintaining low computational requirements per token. However, recent studies have established that MoE models are inherently parameter-inefficient as the improvement in performance diminishes with an increasing number of experts. We hypothesize this parameter inefficiency is a result of all experts having equal capacity, which may not adequately meet the varying complexity requirements of different tokens or tasks, e.g., in a multilingual setting, languages based on their resource levels might require different capacities. In light of this, we propose Stratified Mixture of Experts(SMoE) models, which feature a stratified structure and can assign dynamic capacity to different tokens. We demonstrate the effectiveness of SMoE on two multilingual machine translation benchmarks, where it outperforms multiple state-of-the-art MoE models. On a diverse 15-language dataset, SMoE improves the translation quality over vanilla MoE by +0.93 BLEU points on average. Additionally, SMoE is parameter-efficient, matching vanilla MoE performance with around 50\% fewer parameters.

arxiv情報

著者 Haoran Xu,Maha Elbayad,Kenton Murray,Jean Maillard,Vedanuj Goswami
発行日 2023-05-03 15:18:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク