要約
言語モデルの専門家混合 (MoE) は、各入力トークンを処理のために専門家の特定のサブセットに動的にルーティングすることにより、モデルの能力を増強するのに効果的であることが証明されています。
成功にもかかわらず、既存の手法のほとんどは、スパース性と専門知識の利用可能性との間のバランスという課題に直面しています。専門知識の使用量を増やしてパフォーマンスを向上させると、専門家の選択時にスパース性が減少することがよくあります。
この矛盾を軽減するために、私たちはハイパーネットワーク上に構築された新しい MoE フレームワークである HyperMoE を提案します。
このフレームワークは、MoE の計算プロセスとマルチタスク学習における知識伝達の概念を統合します。
選択されなかった専門家の情報に基づいて生成された特定のモジュールは補足情報として機能し、選択のスパース性を維持しながら選択されなかった専門家の知識を使用することができます。
複数のデータセットとバックボーンにわたる包括的な経験的評価により、HyperMoE は専門家の数に関する同一条件下で既存の MoE 手法を大幅に上回ることが実証されました。
要約(オリジナル)
The Mixture of Experts (MoE) for language models has been proven effective in augmenting the capacity of models by dynamically routing each input token to a specific subset of experts for processing. Despite the success, most existing methods face a challenge for balance between sparsity and the availability of expert knowledge: enhancing performance through increased use of expert knowledge often results in diminishing sparsity during expert selection. To mitigate this contradiction, we propose HyperMoE, a novel MoE framework built upon Hypernetworks. This framework integrates the computational processes of MoE with the concept of knowledge transferring in multi-task learning. Specific modules generated based on the information of unselected experts serve as supplementary information, which allows the knowledge of experts not selected to be used while maintaining selection sparsity. Our comprehensive empirical evaluations across multiple datasets and backbones establish that HyperMoE significantly outperforms existing MoE methods under identical conditions concerning the number of experts.
arxiv情報
著者 | Hao Zhao,Zihan Qiu,Huijia Wu,Zili Wang,Zhaofeng He,Jie Fu |
発行日 | 2024-05-21 12:41:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google