Self-consistent context aware conformer transducer for speech recognition

要約

我々は、ASR システムにコンテキスト情報フローを追加する配座異性体トランスデューサーに基づく新しいニューラル ネットワーク アーキテクチャを提案します。
私たちの方法は、一般的な単語の単語誤り率を損なうことなく、珍しい単語の認識精度を向上させます。
新しいモデルやコンテキスト言語モデルとの浅い融合を使用した場合の、珍しい単語の精度の向上を調査します。
両方を組み合わせると、珍しい単語の認識精度が累積的に向上することがわかりました。

要約(オリジナル)

We propose a novel neural network architecture based on conformer transducer that adds contextual information flow to the ASR systems. Our method improves the accuracy of recognizing uncommon words while not harming the word error rate of regular words. We explore the uncommon words accuracy improvement when we use the new model and/or shallow fusion with context language model. We found that combination of both provides cumulative gain in uncommon words recognition accuracy.

arxiv情報

著者 Konstantin Kolokolov,Pavel Pekichev,Karthik Raghunathan
発行日 2024-02-09 18:12:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク