Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models

要約

大規模言語モデル (LLM) の進歩における極めて重要な進歩は、Mixture-of-Experts (MoE) LLM の出現です。
従来の LLM と比較して、MoE LLM はより少ないパラメータでより高いパフォーマンスを達成できますが、パラメータ サイズが膨大であるため、導入は依然として困難です。
特別に設計されたハードウェアに依存するこれまでの重みプルーニング手法とは異なり、このペーパーは主に、プラグ アンド プレイのエキスパート レベルのスパース化手法を導入することにより、MoE LLM の展開効率を向上させることを目的としています。
具体的には、私たちの知る限り初めて、幅広いタスクにわたってモデルのパフォーマンスを維持しながら導入効率を向上させるように調整された、タスクに依存しない、タスク固有のエキスパートによる MoE LLM のプルーニングとスキップのためのトレーニング後のアプローチを提案します。
広範な実験により、私たちが提案した方法は、満足のいくパフォーマンスを維持しながら、モデルサイズの縮小と推論速度の向上を同時に実現できることが示されています。
データとコードは https://github.com/Lucky-Lance/Expert_Sparsity で入手できます。

要約(オリジナル)

A pivotal advancement in the progress of large language models (LLMs) is the emergence of the Mixture-of-Experts (MoE) LLMs. Compared to traditional LLMs, MoE LLMs can achieve higher performance with fewer parameters, but it is still hard to deploy them due to their immense parameter sizes. Different from previous weight pruning methods that rely on specifically designed hardware, this paper mainly aims to enhance the deployment efficiency of MoE LLMs by introducing plug-and-play expert-level sparsification techniques. Specifically, we propose, for the first time to our best knowledge, post-training approaches for task-agnostic and task-specific expert pruning and skipping of MoE LLMs, tailored to improve deployment efficiency while maintaining model performance across a wide range of tasks. Extensive experiments show that our proposed methods can simultaneously reduce model sizes and increase the inference speed, while maintaining satisfactory performance. Data and code will be available at https://github.com/Lucky-Lance/Expert_Sparsity.

arxiv情報

著者 Xudong Lu,Qi Liu,Yuhui Xu,Aojun Zhou,Siyuan Huang,Bo Zhang,Junchi Yan,Hongsheng Li
発行日 2024-05-30 16:24:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク