UML: A Universal Monolingual Output Layer for Multilingual ASR

要約

ワード ピース モデル (WPM) は、最先端のエンド ツー エンド自動音声認識 (ASR) システムで一般的に使用されるサブワード ユニットです。
多言語 ASR の場合、言語間で記述されたスクリプトが異なるため、多言語 WPM は、過度に大きな出力レイヤーを持ち、より多くの言語にスケーリングするという課題をもたらします。
この作業では、このような問題に対処するためのユニバーサル モノリンガル出力レイヤー (UML) を提案します。
1 つの WPM のみに対して 1 つの出力ノードを使用する代わりに、UML は各出力ノードを複数の WPM (言語ごとに 1 つずつ) に再関連付けし、複数の言語で共有される単一言語出力レイヤーを小さくします。
したがって、UML では、入力音声の言語に応じて、各出力ノードの解釈を切り替えることができます。
11 言語の音声検索タスクに関する実験結果は、UML を使用して高品質で高効率の多言語ストリーミング ASR の実現可能性を実証しました。

要約(オリジナル)

Word-piece models (WPMs) are commonly used subword units in state-of-the-art end-to-end automatic speech recognition (ASR) systems. For multilingual ASR, due to the differences in written scripts across languages, multilingual WPMs bring the challenges of having overly large output layers and scaling to more languages. In this work, we propose a universal monolingual output layer (UML) to address such problems. Instead of one output node for only one WPM, UML re-associates each output node with multiple WPMs, one for each language, and results in a smaller monolingual output layer shared across languages. Consequently, the UML enables to switch in the interpretation of each output node depending on the language of the input speech. Experimental results on an 11-language voice search task demonstrated the feasibility of using UML for high-quality and high-efficiency multilingual streaming ASR.

arxiv情報

著者 Chao Zhang,Bo Li,Tara N. Sainath,Trevor Strohman,Shuo-yiin Chang
発行日 2023-02-22 07:40:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク