RoDia: A New Dataset for Romanian Dialect Identification from Speech


この研究ギャップに対処するために、音声からルーマニアの方言を識別するための最初のデータセットである RoDia を紹介します。
RoDia データセットには、ルーマニアの 5 つの異なる地域から収集したさまざまな音声サンプルが含まれており、都市環境と農村環境の両方をカバーしており、手動で注釈が付けられた合計 2 時間の音声データになります。
最高スコアのモデルは、マクロ F1 スコア 59.83%、ミクロ F1 スコア 62.08% を達成しており、タスクが困難であることを示しています。
したがって、RoDia はルーマニア語の方言識別の課題に対処することを目的とした研究を刺激する貴重なリソースであると私たちは信じています。
データセットとコードは で公開しています。


Dialect identification is a critical task in speech processing and language technology, enhancing various applications such as speech recognition, speaker verification, and many others. While most research studies have been dedicated to dialect identification in widely spoken languages, limited attention has been given to dialect identification in low-resource languages, such as Romanian. To address this research gap, we introduce RoDia, the first dataset for Romanian dialect identification from speech. The RoDia dataset includes a varied compilation of speech samples from five distinct regions of Romania, covering both urban and rural environments, totaling 2 hours of manually annotated speech data. Along with our dataset, we introduce a set of competitive models to be used as baselines for future research. The top scoring model achieves a macro F1 score of 59.83% and a micro F1 score of 62.08%, indicating that the task is challenging. We thus believe that RoDia is a valuable resource that will stimulate research aiming to address the challenges of Romanian dialect identification. We publicly release our dataset and code at


著者 Codrut Rotaru,Nicolae-Catalin Ristea,Radu Tudor Ionescu
発行日 2023-09-06 21:56:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク