HypR: A comprehensive study for ASR hypothesis revising with a reference corpus


ディープラーニングの発展に伴い、自動音声認識 (ASR) は大幅に進歩しました。
パフォーマンスをさらに向上させるために、認識結果を修正することは、軽量かつ効率的な方法の 1 つです。
さまざまな手法は、N-best リランキング手法と誤り訂正モデルに大別できます。
前者の目的は、特定の入力音声に対して ASR によって生成された候補のセットから誤り率が最も低い仮説を選択することです。
ただし、これらの研究は通常、異なるコーパスで評価され、異なる ASR モデルと組み合わせられ、さらにはモデルのトレーニングに異なるデータセットが使用されるため、相互に比較することはほとんどできないことがわかりました。
したがって、この研究ではまず ASR 仮説修正 (HypR) データセットのリリースに重点を置きます。
HypR には、一般的に使用されるいくつかのコーパス (AISHELL-1、TED-LIUM 2、および LibriSpeech) が含まれており、各音声発話に対して 50 の認識仮説が提供されます。
ASR のチェックポイント モデルも公開されています。
私たちは、公開されている HypR データセットがその後の研究の参照ベンチマークとなり、研究機関を高度なレベルに推進できることを願っています。


With the development of deep learning, automatic speech recognition (ASR) has made significant progress. To further enhance the performance, revising recognition results is one of the lightweight but efficient manners. Various methods can be roughly classified into N-best reranking methods and error correction models. The former aims to select the hypothesis with the lowest error rate from a set of candidates generated by ASR for a given input speech. The latter focuses on detecting recognition errors in a given hypothesis and correcting these errors to obtain an enhanced result. However, we observe that these studies are hardly comparable to each other as they are usually evaluated on different corpora, paired with different ASR models, and even use different datasets to train the models. Accordingly, we first concentrate on releasing an ASR hypothesis revising (HypR) dataset in this study. HypR contains several commonly used corpora (AISHELL-1, TED-LIUM 2, and LibriSpeech) and provides 50 recognition hypotheses for each speech utterance. The checkpoint models of the ASR are also published. In addition, we implement and compare several classic and representative methods, showing the recent research progress in revising speech recognition results. We hope the publicly available HypR dataset can become a reference benchmark for subsequent research and promote the school of research to an advanced level.


著者 Yi-Wei Wang,Ke-Han Lu,Kuan-Yu Chen
発行日 2023-09-19 05:31:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク