Zambezi Voice: A Multilingual Speech Corpus for Zambian Languages

要約

この作品では、ザンビア語のオープンソース多言語音声リソースである Zambezi Voice を紹介します。
これには、ラジオのニュースおよびトークショー番組のラベルなし音声録音 (160 時間) と、一般に入手可能な文献書籍からのテキストをソースとして録音された読み上げ音声からなるラベル付きデータ (80 時間以上) の 2 つのデータセット コレクションが含まれています。
このデータセットは音声認識用に作成されていますが、教師あり学習アプローチと教師なし学習アプローチの両方の多言語音声処理研究に拡張できます。
私たちの知る限り、これはザンビア言語用に作成された最初の多言語音声データセットです。
Wav2Vec2.0 大規模多言語事前トレーニング モデルを微調整することで、事前トレーニングと言語間転移学習を活用し、ベースライン モデルのエンドツーエンド (E2E) 音声認識モデルを構築します。
データセットはクリエイティブ コモンズ BY-NC-ND 4.0 ライセンスに基づいて公開されており、プロジェクト リポジトリを通じてアクセスできます。
https://github.com/unza-speech-lab/zambezi-voice を参照してください。

要約(オリジナル)

This work introduces Zambezi Voice, an open-source multilingual speech resource for Zambian languages. It contains two collections of datasets: unlabelled audio recordings of radio news and talk shows programs (160 hours) and labelled data (over 80 hours) consisting of read speech recorded from text sourced from publicly available literature books. The dataset is created for speech recognition but can be extended to multilingual speech processing research for both supervised and unsupervised learning approaches. To our knowledge, this is the first multilingual speech dataset created for Zambian languages. We exploit pretraining and cross-lingual transfer learning by finetuning the Wav2Vec2.0 large-scale multilingual pre-trained model to build end-to-end (E2E) speech recognition models for our baseline models. The dataset is released publicly under a Creative Commons BY-NC-ND 4.0 license and can be accessed through the project repository. See https://github.com/unza-speech-lab/zambezi-voice

arxiv情報

著者 Claytone Sikasote,Kalinda Siaminwe,Stanly Mwape,Bangiwe Zulu,Mofya Phiri,Martin Phiri,David Zulu,Mayumbo Nyirenda,Antonios Anastasopoulos
発行日 2023-06-07 13:36:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク