MoLE : Mixture of Language Experts for Multi-Lingual Automatic Speech Recognition

要約

多言語音声認識は、異なる言語の言語表現を区別し、同時に音響処理を統合することを目的としています。
対照的に、現在の多言語音声認識研究は、主に言語の特徴を区別するのではなく、認識パフォーマンスを向上させることを目的とした言語認識パラダイムに従います。
この論文では、Mixture-of-Language-Expert(MoLE) という名前の多言語音声認識ネットワークを紹介します。このネットワークは、さまざまな言語の音声を消化します。
具体的には、MoLE は任意の言語の入力音声から言語表現を分析し、軽量の言語トークナイザーを使用して言語固有のエキスパートをアクティブにします。
トークナイザーは専門家を活性化するだけでなく、活性化の信頼性も推定します。
信頼性に基づいて、アクティブ化されたエキスパートと言語に依存しないエキスパートが集約され、効率的な音声認識のための言語条件付き埋め込みが表されます。
提案したモデルを 5 言語シナリオで評価し、実験結果は、この構造が多言語認識、特にリソースの少ない言語の音声で有利であることを示しています。

要約(オリジナル)

Multi-lingual speech recognition aims to distinguish linguistic expressions in different languages and integrate acoustic processing simultaneously. In contrast, current multi-lingual speech recognition research follows a language-aware paradigm, mainly targeted to improve recognition performance rather than discriminate language characteristics. In this paper, we present a multi-lingual speech recognition network named Mixture-of-Language-Expert(MoLE), which digests speech in a variety of languages. Specifically, MoLE analyzes linguistic expression from input speech in arbitrary languages, activating a language-specific expert with a lightweight language tokenizer. The tokenizer not only activates experts, but also estimates the reliability of the activation. Based on the reliability, the activated expert and the language-agnostic expert are aggregated to represent language-conditioned embedding for efficient speech recognition. Our proposed model is evaluated in 5 languages scenario, and the experimental results show that our structure is advantageous on multi-lingual recognition, especially for speech in low-resource language.

arxiv情報

著者 Yoohwan Kwon,Soo-Whan Chung
発行日 2023-02-27 13:26:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク