Contextualized End-to-End Speech Recognition with Contextual Phrase Prediction Network


ただし、以前のディープ バイアス手法には、バイアス タスクに対する明示的な監視が不足していました。
この研究では、注意ベースのディープ バイアス手法のための文脈フレーズ予測ネットワークを紹介します。
このネットワークは、コンテキスト埋め込みを使用して発話内のコンテキスト フレーズを予測し、コンテキスト化されたモデルのトレーニングを支援するバイアス損失を計算します。
私たちの方法は、さまざまなエンドツーエンドの音声認識モデルにわたって単語誤り率 (WER) の大幅な削減を達成しました。
LibriSpeech コーパスの実験では、提案されたモデルがベースライン モデルと比較して WER が相対的に 12.1% 向上し、文脈フレーズの WER が相対的に 40.5% 減少することが示されています。
さらに、コンテキスト フレーズ フィルタリング戦略を適用することにより、より大きなバイアス リストを使用する場合の WER の低下も効果的に排除します。


Contextual information plays a crucial role in speech recognition technologies and incorporating it into the end-to-end speech recognition models has drawn immense interest recently. However, previous deep bias methods lacked explicit supervision for bias tasks. In this study, we introduce a contextual phrase prediction network for an attention-based deep bias method. This network predicts context phrases in utterances using contextual embeddings and calculates bias loss to assist in the training of the contextualized model. Our method achieved a significant word error rate (WER) reduction across various end-to-end speech recognition models. Experiments on the LibriSpeech corpus show that our proposed model obtains a 12.1% relative WER improvement over the baseline model, and the WER of the context phrases decreases relatively by 40.5%. Moreover, by applying a context phrase filtering strategy, we also effectively eliminate the WER degradation when using a larger biasing list.


著者 Kaixun Huang,Ao Zhang,Zhanheng Yang,Pengcheng Guo,Bingshen Mu,Tianyi Xu,Lei Xie
発行日 2023-06-26 12:28:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク