Pushing Mixture of Experts to the Limit: Extremely Parameter Efficient MoE for Instruction Tuning

要約

Mixture of Experts (MoE) は広く知られているニューラル アーキテクチャであり、特殊なサブモデルのアンサンブルが一定の計算コストで全体のパフォーマンスを最適化します。
ただし、従来の MoE では、すべての専門家をメモリに保存する必要があるため、大規模な課題が生じます。
このペーパーでは、MoE を限界まで推し進めます。
当社は、MoE アーキテクチャと軽量エキスパートを独自に組み合わせることで、非常にパラメータ効率の高い MoE を提案します。当社の MoE アーキテクチャは、標準的なパラメータ効率の高い微調整 (PEFT) 手法を上回り、軽量エキスパートのみを更新することで完全な微調整と同等のパフォーマンスを実現します。
11B パラメータ モデルの 1%。
さらに、私たちの方法は、事前のタスク知識に依存しないため、目に見えないタスクに一般化されます。
私たちの研究は、専門家を組み合わせたアーキテクチャの多用途性を強調し、厳しいパラメーター制約にさらされた場合でも堅牢なパフォーマンスを提供する能力を示しています。
すべての実験で使用されたコードは、https://github.com/for-ai/parameter-efficient-moe で公開されています。

要約(オリジナル)

The Mixture of Experts (MoE) is a widely known neural architecture where an ensemble of specialized sub-models optimizes overall performance with a constant computational cost. However, conventional MoEs pose challenges at scale due to the need to store all experts in memory. In this paper, we push MoE to the limit. We propose extremely parameter-efficient MoE by uniquely combining MoE architecture with lightweight experts.Our MoE architecture outperforms standard parameter-efficient fine-tuning (PEFT) methods and is on par with full fine-tuning by only updating the lightweight experts — less than 1% of an 11B parameters model. Furthermore, our method generalizes to unseen tasks as it does not depend on any prior task knowledge. Our research underscores the versatility of the mixture of experts architecture, showcasing its ability to deliver robust performance even when subjected to rigorous parameter constraints. Our code used in all the experiments is publicly available here: https://github.com/for-ai/parameter-efficient-moe.

arxiv情報

著者 Ted Zadouri,Ahmet Üstün,Arash Ahmadian,Beyza Ermiş,Acyr Locatelli,Sara Hooker
発行日 2023-09-11 13:31:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク