要約
このペーパーでは、混雑した騒々しい環境における特定の話者の自動音声認識 (ASR) を改善するために設計されたエンドツーエンドのモデルを紹介します。
このモデルは、話者の音声を背景ノイズから分離するシングルチャネル音声強調モジュール (ConVoiFilter) と ASR モジュールを利用します。
このモデルは、このアプローチを通じて ASR の単語誤り率 (WER) を 80% から 26.4% に減少させることができます。
通常、これら 2 つのコンポーネントは、データ要件の変化に応じて個別に調整されます。
ただし、音声強調により、ASR 効率が低下する異常が発生する可能性があります。
共同微調整戦略を実装することにより、モデルは WER を個別調整の 26.4% から共同調整の 14.5% に削減できます。
私たちは、さらなる研究を促進するために、事前トレーニングされたモデルをオープンに共有しています。 hf.co/nguyenvulebinh/voice-filter。
要約(オリジナル)
This paper presents an end-to-end model designed to improve automatic speech recognition (ASR) for a particular speaker in a crowded, noisy environment. The model utilizes a single-channel speech enhancement module that isolates the speaker’s voice from background noise (ConVoiFilter) and an ASR module. The model can decrease ASR’s word error rate (WER) from 80% to 26.4% through this approach. Typically, these two components are adjusted independently due to variations in data requirements. However, speech enhancement can create anomalies that decrease ASR efficiency. By implementing a joint fine-tuning strategy, the model can reduce the WER from 26.4% in separate tuning to 14.5% in joint tuning. We openly share our pre-trained model to foster further research hf.co/nguyenvulebinh/voice-filter.
arxiv情報
著者 | Thai-Binh Nguyen,Alexander Waibel |
発行日 | 2024-01-08 12:54:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google