Learning ASR pathways: A sparse multilingual ASR model

要約

ニューラル ネットワーク プルーニングは、自動音声認識 (ASR) モデルを効果的に圧縮します。
ただし、多言語 ASR では、言語に依存しないプルーニング マスクがすべての言語に適合せず、重要な言語固有のパラメーターを破棄する可能性があるため、言語に依存しないプルーニングによって、一部の言語でパフォーマンスが大幅に低下する可能性があります。
この作業では、各言語のパラメーターが明示的に学習されるように、言語固有のサブネットワーク (「パスウェイ」) をアクティブにするスパースな多言語 ASR モデルである ASR パスウェイを提示します。
サブネットワークが重複しているため、共有パラメーターにより、共同の多言語トレーニングを介してリソースの少ない言語の知識を伝達することもできます。
ASR経路を学習するための新しいアルゴリズムを提案し、ストリーミングRNN-Tモデルを使用して4つの言語で提案された方法を評価します。
私たちが提案するASR経路は、高密度モデルと言語にとらわれずに刈り込まれたモデルの両方よりも優れており、単一言語の疎モデルと比較して、リソースの少ない言語でより優れたパフォーマンスを提供します.

要約(オリジナル)

Neural network pruning compresses automatic speech recognition (ASR) models effectively. However, in multilingual ASR, language-agnostic pruning may lead to severe performance drops on some languages because language-agnostic pruning masks may not fit all languages and discard important language-specific parameters. In this work, we present ASR pathways, a sparse multilingual ASR model that activates language-specific sub-networks (‘pathways’), such that the parameters for each language are learned explicitly. With the overlapping sub-networks, the shared parameters can also enable knowledge transfer for lower-resource languages via joint multilingual training. We propose a novel algorithm to learn ASR pathways, and evaluate the proposed method on 4 languages with a streaming RNN-T model. Our proposed ASR pathways outperform both dense models and a language-agnostically pruned model, and provide better performance on low-resource languages compared to the monolingual sparse models.

arxiv情報

著者 Mu Yang,Andros Tjandra,Chunxi Liu,David Zhang,Duc Le,Ozlem Kalinli
発行日 2023-03-12 04:46:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク