Enhancing Code-Switching Speech Recognition with LID-Based Collaborative Mixture of Experts Model

要約

異なる言語間の音声の類似性をモデル化することは本質的に難しいため、コードスイッチング音声認識には大きな課題があります。
この研究は、専門家グループ間の協力メカニズムを活用する専門家混合 (MoE) モデルである Collaborative-MoE を提案します。
最初に、先行するルーティング ネットワークは言語識別 (LID) タスクを明示的に学習し、取得した LID の重みに基づいて専門家を選択します。
このプロセスにより、MoE 層への堅牢なルーティング情報が確保され、エキスパート ネットワーク パラメータの更新におけるさまざまな言語ドメインからの干渉が軽減されます。
LID の重みは、グループ間のコラボレーションを促進するためにも使用され、言語固有の表現の統合を可能にします。
さらに、各言語専門家グループ内では、言語を超えた属性に関するコラボレーションを促進するために、ゲーティング ネットワークが監視なしで動作します。
広範な実験により、私たちのアプローチの有効性が実証され、代替方法と比較して大幅なパフォーマンスの向上が達成されます。
重要なのは、私たちの方法では、追加の事前トレーニングを必要とせずに、MoE モデルの特徴である効率的な推論機能が維持されることです。

要約(オリジナル)

Due to the inherent difficulty in modeling phonetic similarities across different languages, code-switching speech recognition presents a formidable challenge. This study proposes a Collaborative-MoE, a Mixture of Experts (MoE) model that leverages a collaborative mechanism among expert groups. Initially, a preceding routing network explicitly learns Language Identification (LID) tasks and selects experts based on acquired LID weights. This process ensures robust routing information to the MoE layer, mitigating interference from diverse language domains on expert network parameter updates. The LID weights are also employed to facilitate inter-group collaboration, enabling the integration of language-specific representations. Furthermore, within each language expert group, a gating network operates unsupervised to foster collaboration on attributes beyond language. Extensive experiments demonstrate the efficacy of our approach, achieving significant performance enhancements compared to alternative methods. Importantly, our method preserves the efficient inference capabilities characteristic of MoE models without necessitating additional pre-training.

arxiv情報

著者 Hukai Huang,Jiayan Lin,Kaidi Wang,Yishuang Li,Wenhao Guan,Lin Li,Qingyang Hong
発行日 2024-09-05 11:54:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク