要約
Mixture-of-Experts (MoE) アーキテクチャを使用すると、モデル パラメーターを増やしながらタスクの実行時にそれらをまばらにアクティブにすることで、推論コストを増やすことなく大規模言語モデル (LLM) のパフォーマンスが大幅に向上します。
ただし、専門家の数の増加によるメモリ消費は、現実世界の多くの設定でこれらのモデルを展開する際に課題をもたらします。
私たちの実証研究では、一部の専門家が事前トレーニング中に冗長な知識をエンコードしていることが明らかになりました。
したがって、モデルのパラメーター効率を向上させるために、類似したエキスパートをグループ化および枝刈りする方法を提案します。
Mixtral、Deepseek-MoE、Qwen を含む 3 つの最先端の MoE アーキテクチャをプルーニングすることにより、この方法の有効性を検証します。
この評価では、私たちの方法がさまざまな自然言語タスクにおいて他のモデル枝刈り方法よりも優れていることが示されています。
今後の研究を容易にするためにコードを公開します。
要約(オリジナル)
By increasing model parameters but activating them sparsely when performing a task, the use of Mixture-of-Experts (MoE) architecture significantly improves the performance of Large Language Models (LLMs) without increasing the inference cost. However, the memory consumption due to the growing number of experts presents a challenge to the deployment of these models in many real world settings. Our empirical study reveals that some experts encode redundant knowledge during pre-training. We thus propose a method of grouping and pruning similar experts to improve the model’s parameter efficiency. We validate the effectiveness of our method by pruning three state-of-the-art MoE architectures, including Mixtral, Deepseek-MoE, and Qwen. The evaluation shows that our method outperforms other model pruning methods on a range of natural language tasks. We will release our code to facilitate future research.
arxiv情報
著者 | Zeliang Zhang,Xiaodong Liu,Hao Cheng,Chenliang Xu,Jianfeng Gao |
発行日 | 2024-09-17 13:48:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google