Fast and accurate factorized neural transducer for text adaption of end-to-end speech recognition models

要約

ニューラル トランスデューサは、その自然なストリーミング機能により、現在、音声認識のエンド ツー エンド モデルとして最も人気があります。
ただし、テキストのみのデータに適応させるのは困難です。
この問題を軽減するために、因数分解された神経変換器 (FNT) モデルが提案されました。
テキストのみの適応データに対する FNT の適応能力の向上は、標準的な神経トランスデューサ モデルと比較して精度が低下するという犠牲を払って実現しました。
FNT モデルのパフォーマンスを改善するいくつかの方法を提案します。
それらは、トレーニング中に CTC 基準を追加すること、適応中に KL 発散損失を追加すること、事前トレーニング済みの言語モデルを使用して語彙予測子をシードすること、および語彙予測子を n-gram 言語モデルで補間することによる効率的な適応アプローチです。
これらのアプローチを組み合わせることで、標準の FNT モデルから 9.48\% の相対的な単語エラー率の削減が実現します。
さらに、語彙予測子を使用した n-gram 補間により、適応速度が大幅に向上し、満足のいく適応パフォーマンスが得られます。

要約(オリジナル)

Neural transducer is now the most popular end-to-end model for speech recognition, due to its naturally streaming ability. However, it is challenging to adapt it with text-only data. Factorized neural transducer (FNT) model was proposed to mitigate this problem. The improved adaptation ability of FNT on text-only adaptation data came at the cost of lowered accuracy compared to the standard neural transducer model. We propose several methods to improve the performance of the FNT model. They are: adding CTC criterion during training, adding KL divergence loss during adaptation, using a pre-trained language model to seed the vocabulary predictor, and an efficient adaptation approach by interpolating the vocabulary predictor with the n-gram language model. A combination of these approaches results in a relative word-error-rate reduction of 9.48\% from the standard FNT model. Furthermore, n-gram interpolation with the vocabulary predictor improves the adaptation speed hugely with satisfactory adaptation performance.

arxiv情報

著者 Rui Zhao,Jian Xue,Partha Parthasarathy,Veljko Miljanic,Jinyu Li
発行日 2023-02-23 08:09:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク