Speech collage: code-switched audio generation by collaging monolingual corpora

要約

コードスイッチング (CS) 用の効果的な自動音声認識 (ASR) システムの設計は、多くの場合、転写された CS リソースの可用性に依存します。
データ不足に対処するために、この論文では音声セグメントをつなぎ合わせることによって単一言語コーパスから CS データを合成する方法であるスピーチ コラージュを紹介します。
オーバーラップ加算アプローチを使用して、オーディオ生成の滑らかさの品質をさらに向上させます。
私たちは、ドメイン内 CS テキストを使用するシナリオと、合成 CS テキストを使用するゼロショット アプローチの 2 つのシナリオで、生成されたデータが音声認識に及ぼす影響を調査します。
実験結果では、ドメイン内シナリオとゼロショット シナリオで、混合エラー率とワードエラー率がそれぞれ最大 34.4% と最大 16.2% の相対的な減少を示しています。
最後に、CS 拡張がモデルのコード切り替え傾向を強化し、単一言語バイアスを軽減することを示します。

要約(オリジナル)

Designing effective automatic speech recognition (ASR) systems for Code-Switching (CS) often depends on the availability of the transcribed CS resources. To address data scarcity, this paper introduces Speech Collage, a method that synthesizes CS data from monolingual corpora by splicing audio segments. We further improve the smoothness quality of audio generation using an overlap-add approach. We investigate the impact of generated data on speech recognition in two scenarios: using in-domain CS text and a zero-shot approach with synthesized CS text. Empirical results highlight up to 34.4% and 16.2% relative reductions in Mixed-Error Rate and Word-Error Rate for in-domain and zero-shot scenarios, respectively. Lastly, we demonstrate that CS augmentation bolsters the model’s code-switching inclination and reduces its monolingual bias.

arxiv情報

著者 Amir Hussein,Dorsa Zeinali,Ondřej Klejch,Matthew Wiesner,Brian Yan,Shammur Chowdhury,Ahmed Ali,Shinji Watanabe,Sanjeev Khudanpur
発行日 2023-09-27 14:17:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク