Convoifilter: A case study of doing cocktail party speech recognition

要約

このペーパーでは、混雑した騒々しい環境における特定の話者の自動音声認識 (ASR) を改善するために設計されたエンドツーエンドのモデルを紹介します。
このモデルは、ASR モジュールとともに、話者の音声を背景ノイズから分離するシングルチャネル音声強調モジュールを利用します。
このアプローチにより、モデルは ASR の単語誤り率 (WER) を 80% から 26.4% に減少させることができます。
通常、これら 2 つのコンポーネントは、データ要件の変化に応じて個別に調整されます。
ただし、音声強調により、ASR 効率が低下する異常が発生する可能性があります。
共同微調整戦略を実装することにより、モデルは WER を個別調整の 26.4% から共同調整の 14.5% に削減できます。

要約(オリジナル)

This paper presents an end-to-end model designed to improve automatic speech recognition (ASR) for a particular speaker in a crowded, noisy environment. The model utilizes a single-channel speech enhancement module that isolates the speaker’s voice from background noise, along with an ASR module. Through this approach, the model is able to decrease the word error rate (WER) of ASR from 80% to 26.4%. Typically, these two components are adjusted independently due to variations in data requirements. However, speech enhancement can create anomalies that decrease ASR efficiency. By implementing a joint fine-tuning strategy, the model can reduce the WER from 26.4% in separate tuning to 14.5% in joint tuning.

arxiv情報

著者 Thai-Binh Nguyen,Alexander Waibel
発行日 2023-08-22 12:09:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク