DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs

要約

大規模な言語モデルが拡大し続けるにつれて、計算コストとリソースの消費が重要な課題として浮上しています。
剪定のような既存のスパース化方法は、計算オーバーヘッドを減らしますが、パラメーターの削除によりモデルの知識を失う危険があります。
このホワイトペーパーでは、事前に訓練されたFFN層を計算ブロックに分割することによりスパースを達成する新しいアプローチであるDSMOE(動的スパース混合物)を提案します。
シグモイドの活性化とストレートスルー推定器を使用して適応エキスパートルーティングを実装し、トークンが入力の複雑さに基づいてモデル知識のさまざまな側面に柔軟にアクセスできるようにします。
さらに、パフォーマンスと計算効率のバランスをとるために、スパースリス項を導入します。
LLAMAモデルでの広範な実験は、同等の計算上の制約の下で、DSMOEが言語モデリングと下流タスク、特に世代のタスクに優れている既存の剪定およびMOEアプローチと比較して優れたパフォーマンスを達成することを示しています。
分析により、DSMOEは特徴的な層状のアクティベーションパターンを学習し、将来のMOEアーキテクチャデザインの新しい洞察を提供することが明らかになりました。

要約(オリジナル)

As large language models continue to scale, computational costs and resource consumption have emerged as significant challenges. While existing sparsification methods like pruning reduce computational overhead, they risk losing model knowledge through parameter removal. This paper proposes DSMoE (Dynamic Sparse Mixture-of-Experts), a novel approach that achieves sparsification by partitioning pre-trained FFN layers into computational blocks. We implement adaptive expert routing using sigmoid activation and straight-through estimators, enabling tokens to flexibly access different aspects of model knowledge based on input complexity. Additionally, we introduce a sparsity loss term to balance performance and computational efficiency. Extensive experiments on LLaMA models demonstrate that under equivalent computational constraints, DSMoE achieves superior performance compared to existing pruning and MoE approaches across language modeling and downstream tasks, particularly excelling in generation tasks. Analysis reveals that DSMoE learns distinctive layerwise activation patterns, providing new insights for future MoE architecture design.

arxiv情報

著者 Minxuan Lv,Zhenpeng Su,Leiyu Pan,Yizhe Xiong,Zijia Lin,Hui Chen,Wei Zhou,Jungong Han,Guiguang Ding,Cheng Luo,Di Zhang,Kun Gai,Songlin Hu
発行日 2025-03-13 10:40:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク