H_eval: A new hybrid evaluation metric for automatic speech recognition tasks

要約

自動音声認識(ASR)システムの評価指標としての単語誤り率(WER)の欠点について、多くの研究が検討されてきた。WERはリテラルな単語レベルの正しさのみを考慮するため、意味距離(SD)やBERTScoreのような意味的類似性に基づく新しい評価指標が開発されてきた。しかし、これらの評価指標には、キーワードを過度に優先する傾向があるなど、独自の限界があることがわかった。我々は、ASRシステムのための新しいハイブリッド評価指標であるH_evalを提案する。H_evalは、意味的な正しさと誤り率の両方を考慮し、WERやSDの性能が低いシナリオで顕著な性能を発揮する。H_evalはBERTScoreに比べて計算が軽いため、評価指標の計算時間を49分の1に削減できる。さらに、H_evalは下流のNLPタスクと強い相関があることを示す。また、メトリック計算時間を短縮するために、蒸留技術を用いて複数の高速かつ軽量なモデルを構築した。

要約(オリジナル)

Many studies have examined the shortcomings of word error rate (WER) as an evaluation metric for automatic speech recognition (ASR) systems. Since WER considers only literal word-level correctness, new evaluation metrics based on semantic similarity such as semantic distance (SD) and BERTScore have been developed. However, we found that these metrics have their own limitations, such as a tendency to overly prioritise keywords. We propose H_eval, a new hybrid evaluation metric for ASR systems that considers both semantic correctness and error rate and performs significantly well in scenarios where WER and SD perform poorly. Due to lighter computation compared to BERTScore, it offers 49 times reduction in metric computation time. Furthermore, we show that H_eval correlates strongly with downstream NLP tasks. Also, to reduce the metric calculation time, we built multiple fast and lightweight models using distillation techniques

arxiv情報

著者 Zitha Sasindran,Harsha Yelchuri,T. V. Prabhakar,Supreeth Rao
発行日 2023-12-01 12:54:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク