Multi-Dialect Vietnamese: Task, Dataset, Baseline Models and Challenges

要約

低資源言語であるベトナム語は、通常、北部、中部、南部の3つの方言グループに分類される。しかし、これらの地域内の各省は、それぞれ異なる発音のバリエーションを示している。様々な音声認識データセットが存在するにもかかわらず、ベトナムの各省に特有の63の方言を細かく分類したものはない。このギャップを解決するために、我々はベトナム全土で話されている63の地方の方言の豊かな多様性を捉えた新しい包括的なデータセットであるVietnam Multi-Dialect (ViMD)データセットを紹介する。このデータセットは102.56時間の音声で構成され、約19,000の発話からなり、関連するトランスクリプトには120万語以上の単語が含まれている。ベンチマークを提供すると同時に、我々のデータセットの課題を実証するために、2つの下流タスク、(1)方言識別と(2)音声認識について、事前に訓練された最先端のモデルを微調整した。実証結果は、方言に対する地理的要因の影響や、多方言の音声データを含む音声認識タスクにおける現在のアプローチの制約など、2つの含意を示唆している。我々のデータセットは研究目的で利用可能である。

要約(オリジナル)

Vietnamese, a low-resource language, is typically categorized into three primary dialect groups that belong to Northern, Central, and Southern Vietnam. However, each province within these regions exhibits its own distinct pronunciation variations. Despite the existence of various speech recognition datasets, none of them has provided a fine-grained classification of the 63 dialects specific to individual provinces of Vietnam. To address this gap, we introduce Vietnamese Multi-Dialect (ViMD) dataset, a novel comprehensive dataset capturing the rich diversity of 63 provincial dialects spoken across Vietnam. Our dataset comprises 102.56 hours of audio, consisting of approximately 19,000 utterances, and the associated transcripts contain over 1.2 million words. To provide benchmarks and simultaneously demonstrate the challenges of our dataset, we fine-tune state-of-the-art pre-trained models for two downstream tasks: (1) Dialect identification and (2) Speech recognition. The empirical results suggest two implications including the influence of geographical factors on dialects, and the constraints of current approaches in speech recognition tasks involving multi-dialect speech data. Our dataset is available for research purposes.

arxiv情報

著者 Nguyen Van Dinh,Thanh Chi Dang,Luan Thanh Nguyen,Kiet Van Nguyen
発行日 2024-10-04 14:17:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク