Investigating the effect of domain selection on automatic speech recognition performance: a case study on Bangladeshi Bangla

要約

データ駆動型の自然言語処理システムのパフォーマンスは、コーパスの品質に左右されます。
ただし、主なコーパス設計基準は、特に音声処理分野では、特定されず、適切に検討されていないことがよくあります。
音声コーパスの開発には、クリーン/ノイジー、読み上げ/自発的、マルチトーカー スピーチ、アクセント/方言などに関して、さらに注意が必要です。ドメインの選択も、音声コーパスの開発における重要な決定ポイントです。
この研究では、7.2 時間の音声と
19 の異なるドメインからの 9802 の発話。
ASR モデルは、深層畳み込みニューラル ネットワーク (CNN)、レイヤー正規化手法、SUBAK.KO のコネクショニスト時間分類 (CTC) 損失基準を使用してトレーニングされています。
実験的評価により、SUBAK.KO の ASR モデルは、主に自然発話のドメインからの発話を認識するのが困難であり、語彙外 (OOV) の単語が多数含まれていることが明らかになりました。
一方、同じ ASR モデルは、読み上げ音声ドメインでのパフォーマンスが向上し、含まれる OOV 単語が少なくなります。
さらに、レイヤーの正規化、入力特徴抽出、畳み込みレイヤーの数などの実験結果を報告し、SUBAK.KO のベースラインを設定します。
BanSpeech は、Bangla ASR の挑戦的な評価ベンチマークの必要性を満たすために公開されます。

要約(オリジナル)

The performance of data-driven natural language processing systems is contingent upon the quality of corpora. However, principal corpus design criteria are often not identified and examined adequately, particularly in the speech processing discipline. Speech corpora development requires additional attention with regard to clean/noisy, read/spontaneous, multi-talker speech, accents/dialects, etc. Domain selection is also a crucial decision point in speech corpus development. In this study, we demonstrate the significance of domain selection by assessing a state-of-the-art Bangla automatic speech recognition (ASR) model on a novel multi-domain Bangladeshi Bangla ASR evaluation benchmark – BanSpeech, which contains 7.2 hours of speech and 9802 utterances from 19 distinct domains. The ASR model has been trained with deep convolutional neural network (CNN), layer normalization technique, and Connectionist Temporal Classification (CTC) loss criterion on SUBAK.KO, a mostly read speech corpus for the low-resource and morphologically rich language Bangla. Experimental evaluation reveals the ASR model on SUBAK.KO faces difficulty recognizing speech from domains with mostly spontaneous speech and has a high number of out-of-vocabulary (OOV) words. The same ASR model, on the other hand, performs better in read speech domains and contains fewer OOV words. In addition, we report the outcomes of our experiments with layer normalization, input feature extraction, number of convolutional layers, etc., and set a baseline on SUBAK.KO. The BanSpeech will be publicly available to meet the need for a challenging evaluation benchmark for Bangla ASR.

arxiv情報

著者 Ahnaf Mozib Samin,M. Humayan Kobir,Md. Mushtaq Shahriyar Rafee,M. Firoz Ahmed,Mehedi Hasan,Partha Ghosh,Shafkat Kibria,M. Shahidur Rahman
発行日 2023-02-28 11:56:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク