要約
この論文では、アルジェリアの方言、フランス語、および英語の間の最初のコード交換データセットである CAFE を紹介し、一般に公開しています (データのダウンロード リンクは承認後に利用可能です)。
CAFE の音声データは、(a) コード交換や重複音声などの現象を捉えた生体内での人間同士の会話を自発的に話すスタイル、(b) 北アフリカのアラビア語方言における独特の言語的課題に対処するという点で独特です。
(c) CAFE は、さまざまな社会言語的文脈内でアルジェリアのさまざまな地域の方言のバリエーションを捉えています。
CAFE データには約 37 時間の音声が含まれており、そのサブセットである 2 時間 36 分の CAFE-small は、音声のセグメンテーション、文字起こし、コード切り替えポイントの明示的な注釈、重複する音声、およびその他のイベントを含む手動の人による注釈とともにリリースされています。
騒音や笑い声など。
残りの約 34.58 時間には、擬似ラベル転写が含まれます。
この論文では、データの公開に加えて、Whisperlarge-v2,3 や PromptingWhisper などの最先端の自動音声認識 (ASR) モデルを使用してそのようなコンテンツを処理する際の課題も強調しました。
次に、前述の Whisper モデルを使用して CAFE データのベンチマークを行い、適切に設計されたデータ処理パイプラインと高度なデコード技術により、混合エラー率 (MER) 0.310、文字エラー率 (CER) 0.329、および
ワード誤り率 (WER) は 0.538。
要約(オリジナル)
The paper introduces and publicly releases (Data download link available after acceptance) CAFE — the first Code-switching dataset between Algerian dialect, French, and english languages. The CAFE speech data is unique for (a) its spontaneous speaking style in vivo human-human conversation capturing phenomena like code-switching and overlapping speech, (b) addresses distinct linguistic challenges in North African Arabic dialect; (c) the CAFE captures dialectal variations from various parts of Algeria within different sociolinguistic contexts. CAFE data contains approximately 37 hours of speech, with a subset, CAFE-small, of 2 hours and 36 minutes released with manual human annotation including speech segmentation, transcription, explicit annotation of code-switching points, overlapping speech, and other events such as noises, and laughter among others. The rest approximately 34.58 hours contain pseudo label transcriptions. In addition to the data release, the paper also highlighted the challenges of using state-of-the-art Automatic Speech Recognition (ASR) models such as Whisper large-v2,3 and PromptingWhisper to handle such content. Following, we benchmark CAFE data with the aforementioned Whisper models and show how well-designed data processing pipelines and advanced decoding techniques can improve the ASR performance in terms of Mixed Error Rate (MER) of 0.310, Character Error Rate (CER) of 0.329 and Word Error Rate (WER) of 0.538.
arxiv情報
著者 | Houssam Eddine-Othman Lachemat,Akli Abbas,Nourredine Oukas,Yassine El Kheir,Samia Haboussi,Absar Showdhury Shammur |
発行日 | 2024-11-20 16:09:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google