要約
このペーパーでは、ウルドゥー語自動音声認識 (ASR) モデルの包括的な評価を示します。
私たちは、Word Error Rate (WER) を使用して、Whisper、MMS、Seamless-M4T の 3 つの ASR モデル ファミリのパフォーマンスを分析し、挿入、削除、置換を含む最も頻繁に発生する間違った単語とエラー タイプの詳細な調査を行います。
分析は、読み上げ音声と会話音声の 2 種類のデータセットを使用して実行されます。
特に、ウルドゥー語 ASR モデルのベンチマーク用に設計された最初の会話音声データセットを紹介します。
シームレス ラージは読み上げ音声データセットでは他の ASR モデルよりも優れたパフォーマンスを発揮し、一方、ウィスパー ラージは会話音声データセットでは最高のパフォーマンスを発揮することがわかりました。
さらに、この評価は、定量的メトリクスのみを使用してウルドゥー語のような低リソース言語の ASR モデルを評価する複雑さを強調し、堅牢なウルドゥー語テキスト正規化システムの必要性を強調しています。
私たちの調査結果は、ウルドゥー語のような低リソース言語向けの堅牢な ASR システムを開発するための貴重な洞察に貢献します。
要約(オリジナル)
This paper presents a comprehensive evaluation of Urdu Automatic Speech Recognition (ASR) models. We analyze the performance of three ASR model families: Whisper, MMS, and Seamless-M4T using Word Error Rate (WER), along with a detailed examination of the most frequent wrong words and error types including insertions, deletions, and substitutions. Our analysis is conducted using two types of datasets, read speech and conversational speech. Notably, we present the first conversational speech dataset designed for benchmarking Urdu ASR models. We find that seamless-large outperforms other ASR models on the read speech dataset, while whisper-large performs best on the conversational speech dataset. Furthermore, this evaluation highlights the complexities of assessing ASR models for low-resource languages like Urdu using quantitative metrics alone and emphasizes the need for a robust Urdu text normalization system. Our findings contribute valuable insights for developing robust ASR systems for low-resource languages like Urdu.
arxiv情報
著者 | Samee Arif,Aamina Jamal Khan,Mustafa Abbas,Agha Ali Raza,Awais Athar |
発行日 | 2024-09-17 15:00:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google