Boosting Hybrid Autoregressive Transducer-based ASR with Internal Acoustic Model Training and Dual Blank Thresholding

要約

ハイブリッド自己回帰トランスデューサー (HAT) は、ブランク事後分布と非ブランク事後分布を個別にモデル化する神経トランスデューサーの一種です。
この論文では、HAT ベースの音声認識を強化するための新しい内部音響モデル (IAM) トレーニング戦略を提案します。
IAM はエンコーダと共同ネットワークで構成されており、これらは完全に共有され、HAT と共同トレーニングされます。
この共同トレーニングにより、HAT トレーニングの効率が向上するだけでなく、IAM と HAT が同期的にブランクを発行することが促進され、より高価な非ブランク計算がスキップされ、その結果、より効果的なブランクしきい値処理が行われ、デコードが高速化されます。
実験では、通常の HAT と比較した IAM を使用した HAT の相対誤差の減少が統計的に有意であることが実証されています。
さらに、HAT と IAM の両方のブランクしきい値処理と互換性のあるデコード アルゴリズムを組み合わせたデュアル ブランクしきい値処理を導入します。
これにより、パフォーマンスが大幅に低下することなく、デコード速度が 42 ~ 75% 向上します。

要約(オリジナル)

A hybrid autoregressive transducer (HAT) is a variant of neural transducer that models blank and non-blank posterior distributions separately. In this paper, we propose a novel internal acoustic model (IAM) training strategy to enhance HAT-based speech recognition. IAM consists of encoder and joint networks, which are fully shared and jointly trained with HAT. This joint training not only enhances the HAT training efficiency but also encourages IAM and HAT to emit blanks synchronously which skips the more expensive non-blank computation, resulting in more effective blank thresholding for faster decoding. Experiments demonstrate that the relative error reductions of the HAT with IAM compared to the vanilla HAT are statistically significant. Moreover, we introduce dual blank thresholding, which combines both HAT- and IAM-blank thresholding and a compatible decoding algorithm. This results in a 42-75% decoding speed-up with no major performance degradation.

arxiv情報

著者 Takafumi Moriya,Takanori Ashihara,Masato Mimura,Hiroshi Sato,Kohei Matsuura,Ryo Masumura,Taichi Asami
発行日 2024-09-30 14:14:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク