AfroDigits: A Community-Driven Spoken Digit Dataset for African Languages

要約

タイトル:『AfroDigits:アフリカ言語のためのコミュニティによるスポークンデジットデータセット』

要約:
– スピーチ技術の進化が著しい中で、アフリカ言語との統合はアフリカのスピーチコーパスの希少性のために限られている。
– この問題に対処するために、アフリカ言語用のスポークンデジットの最小限の、コミュニティによるデータセットであるAfroDigitsを発表し、現在38のアフリカ言語をカバーしている。
– AfroDigitsの実用的な応用のデモンストレーションとして、Wav2Vec2.0-LargeおよびXLS-Rモデルを用いて6つのアフリカ言語[Igbo(ibo)、Yoruba(yor)、Rundi(run)、Oshiwambo(kua)、Shona(sna)、Oromo(gax)]で音声デジット分類実験を行った。
– 実験によって、ファインチューニング中のアフリカ音声コーパスの混合の影響に関する有用な知見が得られた。
– AfroDigitsはアフリカ言語用の最初の公表されたオーディオデジットデータセットであり、電話番号や通りの番号の認識などのアフロセントリックな音声アプリケーションの道を開くと信じられている。
– データセットとプラットフォームは、https://huggingface.co/datasets/chrisjay/crowd-speech-africaおよびhttps://huggingface.co/spaces/chrisjay/afro-speechで公開されている。

要約(オリジナル)

The advancement of speech technologies has been remarkable, yet its integration with African languages remains limited due to the scarcity of African speech corpora. To address this issue, we present AfroDigits, a minimalist, community-driven dataset of spoken digits for African languages, currently covering 38 African languages. As a demonstration of the practical applications of AfroDigits, we conduct audio digit classification experiments on six African languages [Igbo (ibo), Yoruba (yor), Rundi (run), Oshiwambo (kua), Shona (sna), and Oromo (gax)] using the Wav2Vec2.0-Large and XLS-R models. Our experiments reveal a useful insight on the effect of mixing African speech corpora during finetuning. AfroDigits is the first published audio digit dataset for African languages and we believe it will, among other things, pave the way for Afro-centric speech applications such as the recognition of telephone numbers, and street numbers. We release the dataset and platform publicly at https://huggingface.co/datasets/chrisjay/crowd-speech-africa and https://huggingface.co/spaces/chrisjay/afro-speech respectively.

arxiv情報

著者 Chris Chinenye Emezue,Sanchit Gandhi,Lewis Tunstall,Abubakar Abid,Josh Meyer,Quentin Lhoest,Pete Allen,Patrick Von Platen,Douwe Kiela,Yacine Jernite,Julien Chaumond,Merve Noyan,Omar Sanseviero
発行日 2023-04-04 03:32:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク