Cluster-Driven Expert Pruning for Mixture-of-Experts Large Language Models

要約

混合物(MOE)アーキテクチャは、タスク固有の専門家のまばらな活性化を伴う大規模な言語モデル(LLM)をスケーリングするための有望なパラダイムとして浮上しています。
推論中の計算効率にもかかわらず、MOEモデルの全体的な全体的なパラメーターフットプリント(GPT-4など)は、実際の展開に重大な課題を導入します。
現在の剪定アプローチは、MOEシステムの2つの固有の特性に対処できないことがよくあります。1).intra-Layerの専門家の均一性と同じMOE層内の専門家が機能的冗長性を示し、2)。
より深い層が徐々に均一な専門家を含む傾向がある層間類似性パターン。
これらの問題に取り組むために、Cluster駆動型の専門家Pruning(C-Prune)を提案します。これは、MOE LLMSの適応タスク固有の圧縮のための新しい2段階のフレームワークです。
C-Pruneは、パラメーターの類似性メトリックを使用して各MOE層内の機能的に類似した専門家をグループ化するレイヤーワーカスの専門家クラスタリングを介して動作し、その後、クロス層の均一性を説明する統一された重要なスコアリングメカニズムを通じて、すべてのレイヤーの冗長クラスターを排除するグローバルなクラスター剪定が続きます。
複数のMOEモデルとベンチマークに関する広範な実験を通じて、C-Pruneを検証します。
結果は、C-Pruneがモデルサイズを効果的に削減しながら、既存のMOE剪定方法を上回ることを示しています。

要約(オリジナル)

Mixture-of-Experts (MoE) architectures have emerged as a promising paradigm for scaling large language models (LLMs) with sparse activation of task-specific experts. Despite their computational efficiency during inference, the massive overall parameter footprint of MoE models (e.g., GPT-4) introduces critical challenges for practical deployment. Current pruning approaches often fail to address two inherent characteristics of MoE systems: 1).intra-layer expert homogeneity where experts within the same MoE layer exhibit functional redundancy, and 2). inter-layer similarity patterns where deeper layers tend to contain progressively more homogeneous experts. To tackle these issues, we propose Cluster-driven Expert Pruning (C-Prune), a novel two-stage framework for adaptive task-specific compression of MoE LLMs. C-Prune operates through layer-wise expert clustering, which groups functionally similar experts within each MoE layer using parameter similarity metrics, followed by global cluster pruning, which eliminates redundant clusters across all layers through a unified importance scoring mechanism that accounts for cross-layer homogeneity. We validate C-Prune through extensive experiments on multiple MoE models and benchmarks. The results demonstrate that C-Prune effectively reduces model size while outperforming existing MoE pruning methods.

arxiv情報

著者 Hongcheng Guo,Juntao Yao,Boyang Wang,Junjia Du,Shaosheng Cao,Donglin Di,Shun Zhang,Zhoujun Li
発行日 2025-04-10 14:46:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク