Towards an empirical understanding of MoE design choices

要約

この研究では、専門家混合 (MoE) における共通の設計選択が検証パフォーマンスに及ぼす影響を体系的に評価し、トークン レベルとシーケンス レベルでの明確な影響を明らかにしました。
また、学習されたルーターと、フリーズされランダムに初期化されたルーターとの間で同等のパフォーマンスを示す経験的証拠も示し、学習されたルーティングが必須ではない可能性があることを示唆しています。
私たちの調査では、トークンレベルのルーティングで観察される構文の特殊化とは対照的に、シーケンスレベルのルーティングではトピック固有の弱い専門家化が生じる可能性があることがさらに明らかになりました。

要約(オリジナル)

In this study, we systematically evaluate the impact of common design choices in Mixture of Experts (MoEs) on validation performance, uncovering distinct influences at token and sequence levels. We also present empirical evidence showing comparable performance between a learned router and a frozen, randomly initialized router, suggesting that learned routing may not be essential. Our study further reveals that Sequence-level routing can result in topic-specific weak expert specialization, in contrast to syntax specialization observed with Token-level routing.

arxiv情報

著者 Dongyang Fan,Bettina Messmer,Martin Jaggi
発行日 2024-02-20 15:31:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク