Exploring Spoken Language Identification Strategies for Automatic Transcription of Multilingual Broadcast and Institutional Speech

要約

この論文では、音声言語識別 (SLI) と、多言語放送および組織内での音声の音声認識、つまり SLI 文献ではほとんど取り上げられていない実際のアプリケーション シナリオについて取り上げます。
これらの領域では、言語の変化は主に話者の変化に関連していることを観察し、話者ダイアライゼーションと言語識別からなるカスケード システムを提案し、それをより伝統的な言語識別および言語ダイアライゼーション システムと比較します。
結果は、提案されたシステムが言語分類と言語ダイアライゼーションのエラー率の低下 (相対的な言語ダイアライゼーションのエラー率が最大 10%、相対的な言語の混乱の減少が 60%) を達成し、多言語テスト セットでの WER の低下 (相対的な WER が 8% 以上) につながることが示されています。
削減)、同時に、単言語オーディオの音声認識に悪影響を及ぼしません(単言語 ASR を基準として、WER の絶対値が 0.1% ~ 0.7% 増加します)。

要約(オリジナル)

This paper addresses spoken language identification (SLI) and speech recognition of multilingual broadcast and institutional speech, real application scenarios that have been rarely addressed in the SLI literature. Observing that in these domains language changes are mostly associated with speaker changes, we propose a cascaded system consisting of speaker diarization and language identification and compare it with more traditional language identification and language diarization systems. Results show that the proposed system often achieves lower language classification and language diarization error rates (up to 10% relative language diarization error reduction and 60% relative language confusion reduction) and leads to lower WERs on multilingual test sets (more than 8% relative WER reduction), while at the same time does not negatively affect speech recognition on monolingual audio (with an absolute WER increase between 0.1% and 0.7% w.r.t. monolingual ASR).

arxiv情報

著者 Martina Valente,Fabio Brugnara,Giovanni Morrone,Enrico Zovato,Leonardo Badino
発行日 2024-06-13 16:27:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク