RoDia: A New Dataset for Romanian Dialect Identification from Speech

要約

方言の識別は、音声処理および言語テクノロジにおいて重要なタスクであり、音声認識、話者検証などのさまざまなアプリケーションを強化します。
ほとんどの研究研究は広く話されている言語の方言識別に重点を置いていますが、ルーマニア語などのリソースが少ない言語の方言識別には限定的な注意が払われています。
この研究ギャップに対処するために、音声からルーマニアの方言を識別するための最初のデータセットである RoDia を紹介します。
RoDia データセットには、ルーマニアの 5 つの異なる地域から収集したさまざまな音声サンプルが含まれており、都市環境と農村環境の両方をカバーしており、手動で注釈が付けられた合計 2 時間の音声データになります。
データセットとともに、将来の研究のベースラインとして使用される一連の競合モデルを紹介します。
最高スコアのモデルは、マクロ F1 スコア 59.83%、ミクロ F1 スコア 62.08% を達成しており、タスクが困難であることを示しています。
したがって、RoDia はルーマニア語の方言識別の課題に対処することを目的とした研究を刺激する貴重なリソースであると私たちは信じています。
データセットとコードは https://github.com/codrut2/RoDia で公開しています。

要約(オリジナル)

Dialect identification is a critical task in speech processing and language technology, enhancing various applications such as speech recognition, speaker verification, and many others. While most research studies have been dedicated to dialect identification in widely spoken languages, limited attention has been given to dialect identification in low-resource languages, such as Romanian. To address this research gap, we introduce RoDia, the first dataset for Romanian dialect identification from speech. The RoDia dataset includes a varied compilation of speech samples from five distinct regions of Romania, covering both urban and rural environments, totaling 2 hours of manually annotated speech data. Along with our dataset, we introduce a set of competitive models to be used as baselines for future research. The top scoring model achieves a macro F1 score of 59.83% and a micro F1 score of 62.08%, indicating that the task is challenging. We thus believe that RoDia is a valuable resource that will stimulate research aiming to address the challenges of Romanian dialect identification. We publicly release our dataset and code at https://github.com/codrut2/RoDia.

arxiv情報

著者 Codrut Rotaru,Nicolae-Catalin Ristea,Radu Tudor Ionescu
発行日 2023-09-06 21:56:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク