Hypr: A comprehensive study for ASR hypothesis revising with a reference corpus

要約

ディープラーニングの発展に伴い、自動音声認識 (ASR) は大幅に進歩しました。
パフォーマンスをさらに向上させるために、認識結果を修正することは、軽量かつ効率的な方法の 1 つです。
さまざまな手法は、N-best リランキング手法と誤り訂正モデルに大別できます。
前者の目的は、特定の入力音声に対して ASR によって生成された候補のセットから誤り率が最も低い仮説を選択することです。
後者は、特定の仮説における認識エラーを検出し、これらのエラーを修正して改善された結果を得ることに重点を置いています。
ただし、これらの研究は通常、異なるコーパスで評価され、異なる ASR モデルと組み合わせられ、さらにはモデルのトレーニングに異なるデータセットが使用されるため、相互に比較することはほとんどできないことがわかりました。
したがって、この研究ではまず ASR 仮説修正 (HypR) データセットのリリースに重点を置きます。
HypR には、一般的に使用されるいくつかのコーパス (AISHELL-1、TED-LIUM 2、および LibriSpeech) が含まれており、各音声発話に対して 50 の認識仮説が提供されます。
ASR のチェックポイント モデルも公開されています。
さらに、いくつかの古典的で代表的な方法を実装して比較し、音声認識結果の修正における最近の研究の進歩を示します。
私たちは、公開されている HypR データセットがその後の研究の参照ベンチマークとなり、研究機関を高度なレベルに推進できることを願っています。

要約(オリジナル)

With the development of deep learning, automatic speech recognition (ASR) has made significant progress. To further enhance the performance, revising recognition results is one of the lightweight but efficient manners. Various methods can be roughly classified into N-best reranking methods and error correction models. The former aims to select the hypothesis with the lowest error rate from a set of candidates generated by ASR for a given input speech. The latter focuses on detecting recognition errors in a given hypothesis and correcting these errors to obtain an enhanced result. However, we observe that these studies are hardly comparable to each other as they are usually evaluated on different corpora, paired with different ASR models, and even use different datasets to train the models. Accordingly, we first concentrate on releasing an ASR hypothesis revising (HypR) dataset in this study. HypR contains several commonly used corpora (AISHELL-1, TED-LIUM 2, and LibriSpeech) and provides 50 recognition hypotheses for each speech utterance. The checkpoint models of the ASR are also published. In addition, we implement and compare several classic and representative methods, showing the recent research progress in revising speech recognition results. We hope the publicly available HypR dataset can become a reference benchmark for subsequent research and promote the school of research to an advanced level.

arxiv情報

著者 Yi-Wei Wang,Ke-Han Lu,Kuan-Yu Chen
発行日 2023-09-18 14:55:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク