要約
コードスイッチング音声とは、1 つの発話内で 2 つ以上の言語を混合することによる表現手段を指します。
このような音声のエンド ツー エンド (E2E) モデリングを使用した自動音声認識 (ASR) は、データが不足しているため困難な作業になる可能性があります。
この研究では、業界で一般的に使用されているストリーミング モデルである Transformer-Transducer (T-T) のパフォーマンスを向上させるために、標準中国語と英語のコード切り替え音声認識でテキストの生成と挿入を調査します。
最初に、コード スイッチング テキスト データを生成する戦略を提案し、次に、生成されたテキストをテキストから音声への変換 (TTS) 変換によって明示的に、または音声とテキストの潜在空間を結び付けることによって暗黙的に T-T モデルに挿入することを調査します。
1,800 時間の実際の北京語と英語のコード切り替え音声を含むデータセットでトレーニングされた T-T モデルの実験結果は、生成されたコード切り替えテキストを挿入する私たちのアプローチが T-T モデルのパフォーマンスを大幅に向上させることを示しています。
レート (TER) 削減は 3 つの評価セットで平均化され、音声とテキストの潜在空間を結び付けるアプローチは、トレーニング セットとより均一なデータを含む評価セットでの TTS 変換よりも優れています。
要約(オリジナル)
Code-switching speech refers to a means of expression by mixing two or more languages within a single utterance. Automatic Speech Recognition (ASR) with End-to-End (E2E) modeling for such speech can be a challenging task due to the lack of data. In this study, we investigate text generation and injection for improving the performance of an industry commonly-used streaming model, Transformer-Transducer (T-T), in Mandarin-English code-switching speech recognition. We first propose a strategy to generate code-switching text data and then investigate injecting generated text into T-T model explicitly by Text-To-Speech (TTS) conversion or implicitly by tying speech and text latent spaces. Experimental results on the T-T model trained with a dataset containing 1,800 hours of real Mandarin-English code-switched speech show that our approaches to inject generated code-switching text significantly boost the performance of T-T models, i.e., 16% relative Token-based Error Rate (TER) reduction averaged on three evaluation sets, and the approach of tying speech and text latent spaces is superior to that of TTS conversion on the evaluation set which contains more homogeneous data with the training set.
arxiv情報
著者 | Haibin Yu,Yuxuan Hu,Yao Qian,Ma Jin,Linquan Liu,Shujie Liu,Yu Shi,Yanmin Qian,Edward Lin,Michael Zeng |
発行日 | 2023-03-20 09:13:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google