Improving RNN-Transducers with Acoustic LookAhead

要約

RNN トランスデューサ (RNN-T) は、その高精度とストリーミング機能により、音声からテキストへの変換のエンドツーエンド モデルとして広く受け入れられています。
一般的な RNN-T は、入力オーディオとテキスト コンテキストを独立してエンコードし、薄い結合ネットワークによって 2 つのエンコードを結合します。
このアーキテクチャは SOTA ストリーミングの精度を提供しますが、音響的証拠のないテキストの多段階幻覚として現れる強い LM バイアスに対してモデルを脆弱にします。
この論文では、オーディオ入力内の将来を先読みすることで、テキスト表現をより音響的に根拠のあるものにする LookAhead を提案します。
この手法により、ドメイン内評価セットとドメイン外評価セットの両方で単語エラー率が相対的に 5% ~ 20% 大幅に減少します。

要約(オリジナル)

RNN-Transducers (RNN-Ts) have gained widespread acceptance as an end-to-end model for speech to text conversion because of their high accuracy and streaming capabilities. A typical RNN-T independently encodes the input audio and the text context, and combines the two encodings by a thin joint network. While this architecture provides SOTA streaming accuracy, it also makes the model vulnerable to strong LM biasing which manifests as multi-step hallucination of text without acoustic evidence. In this paper we propose LookAhead that makes text representations more acoustically grounded by looking ahead into the future within the audio input. This technique yields a significant 5%-20% relative reduction in word error rate on both in-domain and out-of-domain evaluation sets.

arxiv情報

著者 Vinit S. Unni,Ashish Mittal,Preethi Jyothi,Sunita Sarawagi
発行日 2023-07-11 03:57:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, eess.AS パーマリンク