ClArTTS: An Open-Source Classical Arabic Text-to-Speech Corpus

要約

現在、エンド ツー エンドのニューラル モデルを使用して高品質の文字起こしされた音声データでトレーニングされたテキスト読み上げ (TTS) システムは、理解可能で自然な、人間の音声によく似た音声を生成できます。
これらのモデルは、通常はオーディオブックから抽出された、比較的大きな単一スピーカーのプロが録音したオーディオでトレーニングされます。
一方、この種の自由に利用できる音声コーパスが不足しているため、アラビア語 TTS の研究開発には大きなギャップが存在します。
既存の自由に利用可能なアラビア語音声コーパスのほとんどは、録音条件と品質にばらつきのある複数話者のカジュアルな音声を含んでいるため、TTS トレーニングには適していませんが、音声合成用にキュレーションされたコーパスは一般にサイズが小さく、トレーニング状態には適していません。
最先端のエンドツーエンド モデル。
リソースのこのギャップを埋める動きとして、アラビア語のエンドツーエンド TTS システムの開発をサポートするために、古典アラビア語テキスト読み上げ (ClArTTS) の音声コーパスを提示します。
音声は LibriVox オーディオブックから抽出され、処理、セグメント化、手動で文字起こし、注釈が付けられます。
最終的な ClArTTS コーパスには、40100 kHz でサンプリングされた 1 人の男性スピーカーからの約 12 時間の音声が含まれています。
この論文では、コーパス作成のプロセスを説明し、コーパス統計の詳細と既存のリソースとの比較を提供します。
さらに、Grad-TTS と Glow-TTS に基づいて 2 つの TTS システムを開発し、主観的および客観的な評価を通じて結果のシステムのパフォーマンスを示します。
コーパスは、ベースラインの TTS システムのデモとともに、研究目的で www.clartts.com で公開されます。

要約(オリジナル)

At present, Text-to-speech (TTS) systems that are trained with high-quality transcribed speech data using end-to-end neural models can generate speech that is intelligible, natural, and closely resembles human speech. These models are trained with relatively large single-speaker professionally recorded audio, typically extracted from audiobooks. Meanwhile, due to the scarcity of freely available speech corpora of this kind, a larger gap exists in Arabic TTS research and development. Most of the existing freely available Arabic speech corpora are not suitable for TTS training as they contain multi-speaker casual speech with variations in recording conditions and quality, whereas the corpus curated for speech synthesis are generally small in size and not suitable for training state-of-the-art end-to-end models. In a move towards filling this gap in resources, we present a speech corpus for Classical Arabic Text-to-Speech (ClArTTS) to support the development of end-to-end TTS systems for Arabic. The speech is extracted from a LibriVox audiobook, which is then processed, segmented, and manually transcribed and annotated. The final ClArTTS corpus contains about 12 hours of speech from a single male speaker sampled at 40100 kHz. In this paper, we describe the process of corpus creation and provide details of corpus statistics and a comparison with existing resources. Furthermore, we develop two TTS systems based on Grad-TTS and Glow-TTS and illustrate the performance of the resulting systems via subjective and objective evaluations. The corpus will be made publicly available at www.clartts.com for research purposes, along with the baseline TTS systems demo.

arxiv情報

著者 Ajinkya Kulkarni,Atharva Kulkarni,Sara Abedalmonem Mohammad Shatnawi,Hanan Aldarmaki
発行日 2023-02-28 20:18:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS, none パーマリンク