LibriSpeech-PC: Benchmark for Evaluation of Punctuation and Capitalization Capabilities of end-to-end ASR Models

要約

従来の自動音声認識 (ASR) モデルは、句読点なしで小文字の単語を出力するため、可読性が低下し、ASR トランスクリプトを適切な形式に変換するための後続のテキスト処理モデルが必要になります。
同時に、句読点と大文字化を予測できるエンドツーエンドの ASR モデルの開発には、主に利用可能なデータが限られていることと、句読点予測の不適切な評価などの既存の評価方法の欠点が原因で、いくつかの課題が生じています。
このペーパーでは、エンドツーエンドの ASR モデルの句読点と大文字化の予測機能を評価するために設計された LibriSpeech-PC ベンチマークを紹介します。
このベンチマークには、句読点と大文字化が復元された LibriSpeech-PC データセット、句読点に焦点を当てた句読点エラー率 (PER) と呼ばれる新しい評価指標、および初期ベースライン モデルが含まれています。
すべてのコード、データ、モデルは公開されています。

要約(オリジナル)

Traditional automatic speech recognition (ASR) models output lower-cased words without punctuation marks, which reduces readability and necessitates a subsequent text processing model to convert ASR transcripts into a proper format. Simultaneously, the development of end-to-end ASR models capable of predicting punctuation and capitalization presents several challenges, primarily due to limited data availability and shortcomings in the existing evaluation methods, such as inadequate assessment of punctuation prediction. In this paper, we introduce a LibriSpeech-PC benchmark designed to assess the punctuation and capitalization prediction capabilities of end-to-end ASR models. The benchmark includes a LibriSpeech-PC dataset with restored punctuation and capitalization, a novel evaluation metric called Punctuation Error Rate (PER) that focuses on punctuation marks, and initial baseline models. All code, data, and models are publicly available.

arxiv情報

著者 Aleksandr Meister,Matvei Novikov,Nikolay Karpov,Evelina Bakhturina,Vitaly Lavrukhin,Boris Ginsburg
発行日 2023-10-04 16:23:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク