AfroDigits: A Community-Driven Spoken Digit Dataset for African Languages

要約

音声技術の進歩は目覚ましいものがありますが、アフリカの音声コーパスが不足しているため、アフリカの言語との統合は依然として限られています。
この問題に対処するために、AfroDigits を提示します。これは、現在 38 のアフリカ言語をカバーしているアフリカ言語の音声数字のミニマリストでコミュニティ主導のデータセットです。
AfroDigits の実用的なアプリケーションのデモンストレーションとして、アフリカの 6 つの言語 [イボ (ibo)、ヨルバ (yor)、ルンディ (run)、オシワンボ (kua)、ショナ (sna)、オロモ (gax)] の音声数字分類実験を行います。
)] Wav2Vec2.0-Large および XLS-R モデルを使用します。
私たちの実験は、微調整中にアフリカの音声コーパスを混合することの効果に関する有用な洞察を明らかにしています。
AfroDigits は、アフリカ言語向けに公開された最初の音声数字データセットであり、とりわけ、電話番号や番地の認識など、アフロ中心の音声アプリケーションへの道を開くと信じています。
データセットとプラットフォームは、それぞれ https://huggingface.co/datasets/chrisjay/crowd-speech-africa と https://huggingface.co/spaces/chrisjay/afro-speech で公開しています。

要約(オリジナル)

The advancement of speech technologies has been remarkable, yet its integration with African languages remains limited due to the scarcity of African speech corpora. To address this issue, we present AfroDigits, a minimalist, community-driven dataset of spoken digits for African languages, currently covering 38 African languages. As a demonstration of the practical applications of AfroDigits, we conduct audio digit classification experiments on six African languages [Igbo (ibo), Yoruba (yor), Rundi (run), Oshiwambo (kua), Shona (sna), and Oromo (gax)] using the Wav2Vec2.0-Large and XLS-R models. Our experiments reveal a useful insight on the effect of mixing African speech corpora during finetuning. AfroDigits is the first published audio digit dataset for African languages and we believe it will, among other things, pave the way for Afro-centric speech applications such as the recognition of telephone numbers, and street numbers. We release the dataset and platform publicly at https://huggingface.co/datasets/chrisjay/crowd-speech-africa and https://huggingface.co/spaces/chrisjay/afro-speech respectively.

arxiv情報

著者 Chris Chinenye Emezue,Sanchit Gandhi,Lewis Tunstall,Abubakar Abid,Joshua Meyer,Quentin Lhoest,Pete Allen,Patrick Von Platen,Douwe Kiela,Yacine Jernite,Julien Chaumond,Merve Noyan,Omar Sanseviero
発行日 2023-03-22 14:09:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク