Say Goodbye to RNN-T Loss: A Novel CIF-based Transducer Architecture for Automatic Speech Recognition

要約

RNN-T モデルは ASR で広く使用されており、RNN-T 損失に依存して入力オーディオとターゲット シーケンスの間の長さの調整を実現します。
ただし、実装の複雑さと RNN-T 損失のアライメントベースの最適化目標は、それぞれ計算の冗長性と予測ネットワークの役割の低下につながります。
この論文では、効率的な位置合わせを達成するために RNN-T モデルと継続的統合および発射 (CIF) メカニズムを組み込んだ CIF トランスデューサー (CIF-T) という名前の新しいモデルを提案します。
このようにして、RNN-T 損失が放棄されるため、計算量が削減され、予測ネットワークがより重要な役割を果たせるようになります。
また、パフォーマンスをさらに向上させるために、ファネル CIF、コンテキスト ブロック、統合ゲートおよびバイリニア プーリング共同ネットワーク、および補助トレーニング戦略も導入します。
178 時間の AISHELL-1 および 10000 時間の WenetSpeech データセットの実験では、CIF-T が RNN-T モデルと比較して低い計算オーバーヘッドで最先端の結果を達成することが示されています。

要約(オリジナル)

RNN-T models are widely used in ASR, which rely on the RNN-T loss to achieve length alignment between input audio and target sequence. However, the implementation complexity and the alignment-based optimization target of RNN-T loss lead to computational redundancy and a reduced role for predictor network, respectively. In this paper, we propose a novel model named CIF-Transducer (CIF-T) which incorporates the Continuous Integrate-and-Fire (CIF) mechanism with the RNN-T model to achieve efficient alignment. In this way, the RNN-T loss is abandoned, thus bringing a computational reduction and allowing the predictor network a more significant role. We also introduce Funnel-CIF, Context Blocks, Unified Gating and Bilinear Pooling joint network, and auxiliary training strategy to further improve performance. Experiments on the 178-hour AISHELL-1 and 10000-hour WenetSpeech datasets show that CIF-T achieves state-of-the-art results with lower computational overhead compared to RNN-T models.

arxiv情報

著者 Tian-Hao Zhang,Dinghao Zhou,Guiping Zhon,Baoxiang Li
発行日 2023-07-26 11:59:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク