RNN-Transducer-based Losses for Speech Recognition on Noisy Targets

要約

騒々しい転写産物に関するトレーニング音声認識システムは、データセットが膨大であり、すべてのインスタンスの正確な転写を確保する産業パイプラインで重要な課題です。
この作業では、RNN-Transducerモデルの転写エラーの影響を軽減するために、新しい損失関数を導入します。
Star-Transducerの損失は、損失格子に「スキップフレーム」遷移を組み込んで削除エラーに対処し、正確な転写産物でトレーニングされたモデルと比較してシステムのパフォーマンスの90%以上を回復します。
バイパストランスドゥーサーの損失は、「スキップトークン」遷移を使用して挿入エラーに取り組み、品質の60%以上を回復します。
最後に、ターゲット – ロバストトランスデューサー損失はこれらのアプローチをマージし、任意のエラーに対して堅牢なパフォーマンスを提供します。
実験結果は、ターゲットの堅牢なトランスデューサーの損失が、よく転写されたデータと比較して品質の70%以上を回復することにより、ノイズの多いデータのRNN-Tパフォーマンスを大幅に改善することを示しています。

要約(オリジナル)

Training speech recognition systems on noisy transcripts is a significant challenge in industrial pipelines, where datasets are enormous and ensuring accurate transcription for every instance is difficult. In this work, we introduce novel loss functions to mitigate the impact of transcription errors in RNN-Transducer models. Our Star-Transducer loss addresses deletion errors by incorporating ‘skip frame’ transitions in the loss lattice, restoring over 90% of the system’s performance compared to models trained with accurate transcripts. The Bypass-Transducer loss uses ‘skip token’ transitions to tackle insertion errors, recovering more than 60% of the quality. Finally, the Target-Robust Transducer loss merges these approaches, offering robust performance against arbitrary errors. Experimental results demonstrate that the Target-Robust Transducer loss significantly improves RNN-T performance on noisy data by restoring over 70% of the quality compared to well-transcribed data.

arxiv情報

著者 Vladimir Bataev
発行日 2025-04-09 15:18:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS パーマリンク