Lexical Speaker Error Correction: Leveraging Language Models for Speaker Diarization Error Correction

要約

話者ダイアライゼーション (SD) は通常、自動音声認識 (ASR) システムとともに使用され、認識された単語に話者ラベルを割り当てます。
従来のアプローチでは、独立して最適化された ASR システムと SD システムからの出力を調整します。ここで、SD システムは通常、オーディオ ストリーム内の話者を識別するために音響情報のみを使用します。
このアプローチでは、特にスピーカーの回転やスピーカーの重複領域付近でスピーカーのエラーが発生する可能性があります。
この論文では、現代言語モデル (LM) の力を活用し、語彙情報を使用した新しい 2 パス話者誤り訂正システムを提案します。
複数の電話データセットにわたる実験により、私たちのアプローチが効果的かつ堅牢であることがわかりました。
Fisher データセットのみでトレーニングとチューニングを行うこのエラー修正アプローチにより、3 つの電話データセット (RT03-CTS、Callhome American English、Fisher の保留部分) で相対的な単語レベルダイアライゼーション エラー率 (WDER) が 15 ~ 30% 削減されます。

要約(オリジナル)

Speaker diarization (SD) is typically used with an automatic speech recognition (ASR) system to ascribe speaker labels to recognized words. The conventional approach reconciles outputs from independently optimized ASR and SD systems, where the SD system typically uses only acoustic information to identify the speakers in the audio stream. This approach can lead to speaker errors especially around speaker turns and regions of speaker overlap. In this paper, we propose a novel second-pass speaker error correction system using lexical information, leveraging the power of modern language models (LMs). Our experiments across multiple telephony datasets show that our approach is both effective and robust. Training and tuning only on the Fisher dataset, this error correction approach leads to relative word-level diarization error rate (WDER) reductions of 15-30% on three telephony datasets: RT03-CTS, Callhome American English and held-out portions of Fisher.

arxiv情報

著者 Rohit Paturi,Sundararajan Srinivasan,Xiang Li
発行日 2023-06-15 17:47:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS パーマリンク