Expert-Token Resonance: Redefining MoE Routing through Affinity-Driven Active Selection

要約

Mixture-of-Experts (MoE) アーキテクチャは、大規模言語モデル (LLM) に対するパラダイムシフトのアプローチとして登場し、前例のない計算効率を提供します。
ただし、これらのアーキテクチャは、トークン配布の不均衡と専門家の均質化という課題に直面しており、最適なセマンティック一般化を妨げています。
アフィニティ駆動のアクティブ選択を通じて MoE ルーティングを再定義する新しいフレームワークを紹介します。
このフレームワークの革新には次のものが含まれます。 (1) エキスパート トークン アフィニティ メトリクスの厳密な定式化。
(2) エキスパートとトークン間の共鳴を活用した適応型双方向選択メカニズム。
(3) 動的なトークン分布の進化の下で減少する専門家の能力限界の理論的導出と実験的証拠。
また、専門家の位置特定のために直交特徴抽出モジュールと最適化された損失関数とも統合されています。
私たちの理論分析は、このアプローチが専門家の均質化を軽減しながら、容量境界の大幅な削減を可能にすることを示しています。
実験的な検証により、これらの発見が裏付けられています。モデルの収束や有効性を損なうことなく、各専門家によって処理されるトークンの 40% 削減が達成されています。
通信の最適化と組み合わせると、トレーニング効率が 5.4% から 46.6% 向上することがわかります。
監視付き微調整後、GDAD、C-Eval、および TeleQnA ベンチマーク全体で 9.7% ~ 14.1% のパフォーマンス向上を示しました。

要約(オリジナル)

Mixture-of-Experts (MoE) architectures have emerged as a paradigm-shifting approach for large language models (LLMs), offering unprecedented computational efficiency. However, these architectures grapple with challenges of token distribution imbalance and expert homogenization, impeding optimal semantic generalization. We introduce a novel framework that redefines MoE routing through affinity-driven active selection. The innovations for the framework encompass: (1) A rigorous formulation of expert-token affinity metrics. (2) An adaptive bidirectional selection mechanism leveraging resonance between experts and tokens. (3) Theoretical derivation and experimental evidence of reduced expert capacity bounds under dynamic token distribution evolution. It is also integrated with orthogonal feature extraction module and an optimized loss function for expert localization. Our theoretical analysis demonstrates that this approach mitigates expert homogenization while enabling substantial capacity boundary reduction. Experimental validation corroborates these findings: it achieves a 40% reduction in token processed by each expert without compromising model convergence or efficacy. When coupled with communication optimizations, the training efficiency improvements of 5.4% to 46.6% can be observed. After supervised fine-tuning, it exhibits performance gains of 9.7% to 14.1% across GDAD, C-Eval, and TeleQnA benchmarks.

arxiv情報

著者 Jing Li,Zhijie Sun,Dachao Lin,Xuan He,Yi Lin,Binfan Zheng,Li Zeng,Rongqian Zhao,Xin Chen
発行日 2024-08-30 11:32:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク