Kallaama: A Transcribed Speech Dataset about Agriculture in the Three Most Widely Spoken Languages in Senegal

要約

この研究は Kallaama プロジェクトの一部であり、その目的は農業分野における音声技術開発のための各国語コーパスを作成および普及することです。
自然言語処理のための一部の言語データから恩恵を受けるウォロフ語を除いて、セネガルの国語は言語技術プロバイダーによってほとんど無視されています。
しかし、そのようなテクノロジーは、これらの言語の保護、促進、教育の鍵となります。
Kallaama は、セネガル人が話す 3 つの主な言語、ウォロフ語、プラール語、セリール語に焦点を当てています。
これらの言語は国民の間で広く話されており、国外の人々はもちろんのこと、セネガル語を母語とする人が約 1,000 万人います。
しかし、自動処理や言語技術に使用できる機械可読データのリソースが依然として不足しており、農業分野ではなおさらです。
私たちは、農業に関する上記の各言語での 125 時間の録音を含む、文字起こしされた音声データセットをリリースします。
これらのリソースは、従来のアプローチを含む自動音声認識を目的として特別に設計されています。
このようなテクノロジーを構築するために、Wolof と Pulaar のテキスト コーパスと、Wolof データセットからの 49,132 エントリを含む発音辞書を提供します。

要約(オリジナル)

This work is part of the Kallaama project, whose objective is to produce and disseminate national languages corpora for speech technologies developments, in the field of agriculture. Except for Wolof, which benefits from some language data for natural language processing, national languages of Senegal are largely ignored by language technology providers. However, such technologies are keys to the protection, promotion and teaching of these languages. Kallaama focuses on the 3 main spoken languages by Senegalese people: Wolof, Pulaar and Sereer. These languages are widely spoken by the population, with around 10 million of native Senegalese speakers, not to mention those outside the country. However, they remain under-resourced in terms of machine-readable data that can be used for automatic processing and language technologies, all the more so in the agricultural sector. We release a transcribed speech dataset containing 125 hours of recordings, about agriculture, in each of the above-mentioned languages. These resources are specifically designed for Automatic Speech Recognition purpose, including traditional approaches. To build such technologies, we provide textual corpora in Wolof and Pulaar, and a pronunciation lexicon containing 49,132 entries from the Wolof dataset.

arxiv情報

著者 Elodie Gauthier,Aminata Ndiaye,Abdoulaye Guissé
発行日 2024-04-02 14:31:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク