Boosting Chinese ASR Error Correction with Dynamic Error Scaling Mechanism

要約

中国語の自動音声認識 (ASR) のエラー修正には、大規模な文字セットや境界のない形態素ベースの構造など、中国語の独特の特徴があるため、重大な課題が生じています。
現在の主流モデルは、単語レベルの機能や音声情報を効果的に利用するのに苦労することがよくあります。
この論文では、ASR 出力によって生成された音声的に間違ったテキストを検出して修正するための動的エラー スケーリング メカニズムを組み込んだ新しいアプローチを紹介します。
このメカニズムは、単語レベルの特徴と音声情報を動的に融合することによって動作し、それによって追加の意味論的なデータでモデルを強化します。
さらに、私たちの方法は、間違った文字によって引き起こされる間違った単語の一致の問題に対処するために、独自のエラー削減および増幅戦略を実装しています。
実験結果は、ASR 誤り訂正の大幅な改善を示し、提案した方法の有効性を実証し、確立されたデータセットで有望な結果をもたらしました。

要約(オリジナル)

Chinese Automatic Speech Recognition (ASR) error correction presents significant challenges due to the Chinese language’s unique features, including a large character set and borderless, morpheme-based structure. Current mainstream models often struggle with effectively utilizing word-level features and phonetic information. This paper introduces a novel approach that incorporates a dynamic error scaling mechanism to detect and correct phonetically erroneous text generated by ASR output. This mechanism operates by dynamically fusing word-level features and phonetic information, thereby enriching the model with additional semantic data. Furthermore, our method implements unique error reduction and amplification strategies to address the issues of matching wrong words caused by incorrect characters. Experimental results indicate substantial improvements in ASR error correction, demonstrating the effectiveness of our proposed method and yielding promising results on established datasets.

arxiv情報

著者 Jiaxin Fan,Yong Zhang,Hanzhang Li,Jianzong Wang,Zhitao Li,Sheng Ouyang,Ning Cheng,Jing Xiao
発行日 2023-08-07 09:19:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク