要約
Mixture of Experts (MoE) アプローチは、マルチエキスパート アーキテクチャにより、多言語およびコードスイッチング (CS) の課題に取り組むのに最適です。
この作業では、バイリンガルおよび CS シナリオ向けに最適化された DLG-MoE が導入されています。
当社の新しい動的言語グループベースの MoE レイヤーは、明示的な言語モデリングのための共有重みを備えた言語ルーターを特徴とし、言語グループ内の独立した教師なしルーターが言語を超えた属性を処理します。
この構造はエキスパート拡張機能を強化するだけでなく、動的top-kトレーニングもサポートし、さまざまなtop-k値にわたる柔軟な推論を可能にし、全体的なパフォーマンスを向上させます。
このモデルは事前トレーニングを必要とせず、ストリーミング認識をサポートし、他の方法と比較して比類のない柔軟性で最先端 (SOTA) の結果を達成します。
コードが公開されます。
要約(オリジナル)
The Mixture of Experts (MoE) approach is ideally suited for tackling multilingual and code-switching (CS) challenges due to its multi-expert architecture. This work introduces the DLG-MoE, which is optimized for bilingual and CS scenarios. Our novel Dynamic Language Group-based MoE layer features a language router with shared weights for explicit language modeling, while independent unsupervised routers within the language group handle attributes beyond language. This structure not only enhances expert extension capabilities but also supports dynamic top-k training, allowing for flexible inference across various top-k values and improving overall performance. The model requires no pre-training and supports streaming recognition, achieving state-of-the-art (SOTA) results with unmatched flexibility compared to other methods. The Code will be released.
arxiv情報
著者 | Hukai Huang,Shenghui Lu,Yahui Shan,He Qu,Wenhao Guan,Qingyang Hong,Lin Li |
発行日 | 2024-07-26 08:03:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google