Fast Word Error Rate Estimation Using Self-Supervised Representations for Speech and Text

要約

単語エラー率(WER)推定は、グラウンドトゥルースラベルを必要とせずに自動音声認識(ASR)システムの出力の品質を評価することを目的としています。
このタスクは、高度なASRシステムが大量のデータでトレーニングされているため、注目を集めています。
この文脈では、実際には、WER推定器の計算効率が不可欠になります。
ただし、以前の作品はこの側面を優先していません。
この論文では、SpeechとTextの自己監視学習表現よりも平均プーリングを利用して、WER(FE-WER)の高速推定器が導入されています。
我々の結果は、Fe-werがベースラインを、根平均平方根誤差で14.10%、TED-Lium3のピアソン相関係数で1.22%を上回ったことを示しています。
さらに、スピーカーあたりの平均値の検査を含む、ターゲットWERとWER推定の分布の比較分析が実施されました。
最後に、推論速度は、リアルタイム因子で約3.4倍高速でした。

要約(オリジナル)

Word error rate (WER) estimation aims to evaluate the quality of an automatic speech recognition (ASR) system’s output without requiring ground-truth labels. This task has gained increasing attention as advanced ASR systems are trained on large amounts of data. In this context, the computational efficiency of a WER estimator becomes essential in practice. However, previous works have not prioritised this aspect. In this paper, a Fast estimator for WER (Fe-WER) is introduced, utilizing average pooling over self-supervised learning representations for speech and text. Our results demonstrate that Fe-WER outperformed a baseline relatively by 14.10% in root mean square error and 1.22% in Pearson correlation coefficient on Ted-Lium3. Moreover, a comparative analysis of the distributions of target WER and WER estimates was conducted, including an examination of the average values per speaker. Lastly, the inference speed was approximately 3.4 times faster in the real-time factor.

arxiv情報

著者 Chanho Park,Chengsong Lu,Mingjie Chen,Thomas Hain
発行日 2025-01-29 11:28:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク