A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts

要約

疎ゲート混合エキスパート (MoE) アーキテクチャは、トレーニング可能なルーターを通じて、異なる入力を異なるサブネットワーク、つまりエキスパートに送信します。
MoE は大規模なモデルのトレーニング計算を大幅に削減しますが、そのデプロイメントでは依然として一部の下流タスクではメモリや計算が高価になる可能性があります。
モデル プルーニングは、推論計算を削減するための一般的なアプローチですが、MoE アーキテクチャにおけるその適用はほとんど調査されていません。
私たちの知る限り、この論文は、微調整された MoE モデルの枝刈り専門家向けに、証明された効率的な最初の手法を提供します。
事前トレーニング済みモデルからルーター l2 ノルムの変更を小さくしてエキスパートの枝刈りを優先することで、モデル サイズと計算要件を大幅に削減しながら、テスト精度の維持が保証されることを理論的に証明します。
当社の理論分析は、簡素化された MoE アーキテクチャでのバイナリ分類タスクを中心としていますが、当社の専門家による枝刈り手法は、CIFAR10、CIFAR100、ImageNet などのベンチマーク データセットで微調整された VMoE や E3MoE などの大規模ビジョン MoE モデルで検証されています。

要約(オリジナル)

The sparsely gated mixture of experts (MoE) architecture sends different inputs to different subnetworks, i.e., experts, through trainable routers. MoE reduces the training computation significantly for large models, but its deployment can be still memory or computation expensive for some downstream tasks. Model pruning is a popular approach to reduce inference computation, but its application in MoE architecture is largely unexplored. To the best of our knowledge, this paper provides the first provably efficient technique for pruning experts in finetuned MoE models. We theoretically prove that prioritizing the pruning of the experts with a smaller change of the routers l2 norm from the pretrained model guarantees the preservation of test accuracy, while significantly reducing the model size and the computational requirements. Although our theoretical analysis is centered on binary classification tasks on simplified MoE architecture, our expert pruning method is verified on large vision MoE models such as VMoE and E3MoE finetuned on benchmark datasets such as CIFAR10, CIFAR100, and ImageNet.

arxiv情報

著者 Mohammed Nowaz Rabbani Chowdhury,Meng Wang,Kaoutar El Maghraoui,Naigang Wang,Pin-Yu Chen,Christopher Carothers
発行日 2024-05-30 17:30:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク