Demystifying the Compression of Mixture-of-Experts Through a Unified Framework

要約

大規模な言語モデルのスケーリングは、さまざまなドメインにわたるパフォーマンスに革命をもたらしましたが、モデル サイズの継続的な増大は、現実世界の展開に重大な課題をもたらしています。
Mixture of Experts (MoE) アプローチは、エキスパートのサブセットのみを動的に選択してアクティブにすることでこれに対処し、高いパフォーマンスを維持しながら計算コストを大幅に削減します。
ただし、MoE では、潜在的な冗長性 (パラメータなど) や追加コスト (通信オーバーヘッドなど) が発生します。
高密度モデルの冗長性を軽減するために多数の圧縮技術が開発されているにもかかわらず、MoE の圧縮についてはまだ研究が進んでいません。
私たちはまず、主流の圧縮方法をシームレスに統合するだけでなく、MoE 圧縮を体系的に理解するのに役立つ最先端の統合フレームワークでこのギャップを埋めます。
このフレームワークは、個々のエキスパートを圧縮するエキスパート スリミングと、構造化されたモジュールを削除するエキスパート トリミングという 2 つの観点から圧縮にアプローチします。
このフレームワーク内で、既存の手法では未開拓の最適化空間を探索し、さらに積極的なエキスパート トリミング手法、つまりレイヤー ドロップやブロック ドロップを導入して、大規模な冗長性を排除します。
これらの洞察に基づいて、実践者が MoE を効果的に圧縮するための包括的なレシピを紹介します。
広範な実験結果は、Mixtral-8x7B で 92% 以上のパフォーマンスを維持しながら、6.05 倍のスピードアップとわずか 20.0GB のメモリ使用量を達成するという、私たちのフレームワークと提案されたレシピに基づく圧縮方法の有効性を実証しています。

要約(オリジナル)

Scaling large language models has revolutionized the performance across diverse domains, yet the continual growth in model size poses significant challenges for real-world deployment. The Mixture of Experts (MoE) approach addresses this by dynamically selecting and activating only a subset of experts, significantly reducing computational costs while maintaining high performance. However, MoE introduces potential redundancy (e.g., parameters) and extra costs (e.g., communication overhead). Despite numerous compression techniques developed for mitigating the redundancy in dense models, the compression of MoE remains under-explored. We first bridge this gap with a cutting-edge unified framework that not only seamlessly integrates mainstream compression methods but also helps systematically understand MoE compression. This framework approaches compression from two perspectives: Expert Slimming which compresses individual experts and Expert Trimming which removes structured modules. Within this framework, we explore the optimization space unexplored by existing methods,and further introduce aggressive Expert Trimming techniques, i.e., Layer Drop and Block Drop, to eliminate redundancy at larger scales. Based on these insights,we present a comprehensive recipe to guide practitioners in compressing MoE effectively. Extensive experimental results demonstrate the effectiveness of the compression methods under our framework and the proposed recipe, achieving a 6.05x speedup and only 20.0GB memory usage while maintaining over 92% of performance on Mixtral-8x7B.

arxiv情報

著者 Shwai He,Daize Dong,Liang Ding,Ang Li
発行日 2024-06-04 17:18:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク