要約
この論文では、混合エキスパート (MoE) モデル用の新しい動的エキスパート選択フレームワークを紹介します。これは、入力難易度に基づいてアクティブ化されたエキスパートの数を調整することで、計算効率とモデルのパフォーマンスを向上させることを目的としています。
入力の複雑さに関係なく、所定の数のエキスパートをアクティブにする固定 Top-K ルーティングに依存する従来の MoE アプローチとは異なり、私たちの方法は、各入力のエキスパート選択の信頼レベルに基づいてエキスパートを動的に選択します。
これにより、計算リソースのより効率的な利用が可能になり、高度な推論を必要とする複雑なタスクにはより多くの専門家をアクティブにし、単純なタスクには少数の専門家をアクティブ化します。
広範な評価を通じて、当社のダイナミック ルーティング手法は、さまざまなベンチマークにわたって従来のトップ 2 ルーティングと比べて大幅な改善を示し、有効化されたパラメータが 90% 未満で平均 0.7% の改善を達成しました。
さらなる分析により、BBH のような複雑な推論スキルを必要とするタスクにより多くの専門家を派遣するモデルが示され、入力の複雑さに合わせて計算リソースを動的に割り当てる能力が確認されました。
私たちの調査結果は、変圧器モデルのさまざまなレイヤー間で必要な専門家の数が異なることも強調しており、異種 MoE フレームワークの設計の可能性についての洞察を提供します。
コードとモデルは https://github.com/ZhenweiAn/Dynamic_MoE で入手できます。
要約(オリジナル)
In this paper, we introduce a novel dynamic expert selection framework for Mixture of Experts (MoE) models, aiming to enhance computational efficiency and model performance by adjusting the number of activated experts based on input difficulty. Unlike traditional MoE approaches that rely on fixed Top-K routing, which activates a predetermined number of experts regardless of the input’s complexity, our method dynamically selects experts based on the confidence level in expert selection for each input. This allows for a more efficient utilization of computational resources, activating more experts for complex tasks requiring advanced reasoning and fewer for simpler tasks. Through extensive evaluations, our dynamic routing method demonstrates substantial improvements over conventional Top-2 routing across various benchmarks, achieving an average improvement of 0.7% with less than 90% activated parameters. Further analysis shows our model dispatches more experts to tasks requiring complex reasoning skills, like BBH, confirming its ability to dynamically allocate computational resources in alignment with the input’s complexity. Our findings also highlight a variation in the number of experts needed across different layers of the transformer model, offering insights into the potential for designing heterogeneous MoE frameworks. The code and models are available at https://github.com/ZhenweiAn/Dynamic_MoE.
arxiv情報
著者 | Quzhe Huang,Zhenwei An,Nan Zhuang,Mingxu Tao,Chen Zhang,Yang Jin,Kun Xu,Kun Xu,Liwei Chen,Songfang Huang,Yansong Feng |
発行日 | 2024-03-12 13:41:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google