On-the-fly Text Retrieval for End-to-End ASR Adaptation

要約

エンド ツー エンドの音声認識モデルは、通常は外部言語モデルとの融合によって、外部テキスト ソースを組み込むことによって改善されます。
このような言語モデルは、対象のコーパスが変更されるたびに再トレーニングする必要があります。
さらに、コーパス全体をパラメーターに保存するため、まれな単語を思い出すのが難しい場合があります。
この作業では、外部テキスト コーパスから部分的な ASR 仮説のもっともらしい補完を直接取得する検索言語モデルを使用して、トランスデューサー ベースの ASR モデルを拡張することを提案します。
これらの補完は、一度トレーニングされたアダプターによって後続の予測に統合されるため、再トレーニングの計算オーバーヘッドを招くことなく、対象のコーパスを切り替えることができます。
私たちの実験は、提案されたモデルが、質問応答データセットのペアに対するトランスデューサベースラインのパフォーマンスを大幅に改善することを示しています。
さらに、名前付きエンティティの認識において、浅い融合よりも約 7 倍優れています。
2 つを組み合わせると、相対的な改善は 13% に増加します。

要約(オリジナル)

End-to-end speech recognition models are improved by incorporating external text sources, typically by fusion with an external language model. Such language models have to be retrained whenever the corpus of interest changes. Furthermore, since they store the entire corpus in their parameters, rare words can be challenging to recall. In this work, we propose augmenting a transducer-based ASR model with a retrieval language model, which directly retrieves from an external text corpus plausible completions for a partial ASR hypothesis. These completions are then integrated into subsequent predictions by an adapter, which is trained once, so that the corpus of interest can be switched without incurring the computational overhead of retraining. Our experiments show that the proposed model significantly improves the performance of a transducer baseline on a pair of question-answering datasets. Further, it outperforms shallow fusion on recognition of named entities by about 7 relative; when the two are combined, the relative improvement increases to 13%.

arxiv情報

著者 Bolaji Yusuf,Aditya Gourav,Ankur Gandhe,Ivan Bulyko
発行日 2023-03-20 08:54:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク