PATCorrect: Non-autoregressive Phoneme-augmented Transformer for ASR Error Correction

要約

自動音声認識 (ASR) システムによって発生する音声からテキストへのエラーは、下流のモデルに悪影響を与えます。
後処理テキスト編集方法としてのエラー修正モデルは、ASR 出力を改良するために最近開発されました。
ただし、産業グレードの生産システムの低遅延要件を満たす効率的なモデルは十分に研究されていません。
私たちは、テキストと音素の両方のモダリティの表現を活用するマルチモーダル融合に基づく新しい非自己回帰 (NAR) アプローチである PATCorrect を提案します。これにより、単語誤り率 (WER) が削減され、入力文字起こしの品質が変化しても堅牢に実行されます。
我々は、PATCorrect が、さまざまな上流 ASR システムにわたる英語コーパスにおいて常に最先端の NAR 手法を上回るパフォーマンスを示し、テキストのみのモダリティを使用する他の手法で達成された WER の 9.46% と比較して、全体で 11.62% の WER 削減 (WERR) を達成したことを実証しました。
さらに、その推論遅延は数十ミリ秒であるため、低遅延要件を持つシステムに最適です。

要約(オリジナル)

Speech-to-text errors made by automatic speech recognition (ASR) systems negatively impact downstream models. Error correction models as a post-processing text editing method have been recently developed for refining the ASR outputs. However, efficient models that meet the low latency requirements of industrial grade production systems have not been well studied. We propose PATCorrect-a novel non-autoregressive (NAR) approach based on multi-modal fusion leveraging representations from both text and phoneme modalities, to reduce word error rate (WER) and perform robustly with varying input transcription quality. We demonstrate that PATCorrect consistently outperforms state-of-the-art NAR method on English corpus across different upstream ASR systems, with an overall 11.62% WER reduction (WERR) compared to 9.46% WERR achieved by other methods using text only modality. Besides, its inference latency is at tens of milliseconds, making it ideal for systems with low latency requirements.

arxiv情報

著者 Ziji Zhang,Zhehui Wang,Rajesh Kamma,Sharanya Eswaran,Narayanan Sadagopan
発行日 2023-06-21 17:44:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク