要約
エキスパートのまばらな混合物(SMOE)は、ネットワークの深さまたは幅を増やす平均を超えて、モデルの複雑さを拡大する魅力的なソリューションを提供します。
ただし、計算を実行する専門家がルーティングプロセスに直接貢献しない最適でないルーティングプロセスのため、効果的なSMOEトレーニングは依然として困難なままであると主張します。
この作業では、競争を提案します。これは、最も高い神経反応を持つ専門家にトークンをルーティングする新しいメカニズムを提案します。
理論的には、競合メカニズムが従来のソフトマックスルーティングよりも良いサンプル効率を享受していることを示しています。
さらに、ルーターを展開して競争ポリシーを学習することにより、大規模な言語モデルをトレーニングするためのシンプルで効果的なアルゴリズムであるContermoeを開発し、低いトレーニングオーバーヘッドで強力なパフォーマンスを楽しんでいます。
視覚指導の調整と言語の両方のトレーニングタスクの両方に関する当社の広範な経験的評価は、最先端のSMOE戦略と比較して競合型の有効性、堅牢性、およびスケーラビリティを示しています。
実装をhttps://github.com/fsoft-aic/competesmoeで利用できるようにしました。
この作業は、ARXIV:2402.02526での以前の研究の改善されたバージョンです
要約(オリジナル)
Sparse mixture of experts (SMoE) offers an appealing solution to scale up the model complexity beyond the mean of increasing the network’s depth or width. However, we argue that effective SMoE training remains challenging because of the suboptimal routing process where experts that perform computation do not directly contribute to the routing process. In this work, we propose competition, a novel mechanism to route tokens to experts with the highest neural response. Theoretically, we show that the competition mechanism enjoys a better sample efficiency than the traditional softmax routing. Furthermore, we develop CompeteSMoE, a simple yet effective algorithm to train large language models by deploying a router to learn the competition policy, thus enjoying strong performances at a low training overhead. Our extensive empirical evaluations on both the visual instruction tuning and language pre-training tasks demonstrate the efficacy, robustness, and scalability of CompeteSMoE compared to state-of-the-art SMoE strategies. We have made the implementation available at: https://github.com/Fsoft-AIC/CompeteSMoE. This work is an improved version of the previous study at arXiv:2402.02526
arxiv情報
| 著者 | Nam V. Nguyen,Huy Nguyen,Quang Pham,Van Nguyen,Savitha Ramasamy,Nhat Ho | 
| 発行日 | 2025-05-19 17:24:26+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
