Towards Zero-Shot Text-To-Speech for Arabic Dialects

要約

ゼロショット マルチスピーカー テキスト読み上げ (ZS-TTS) システムは英語向けに進歩していますが、リソースが不十分なため依然として遅れています。
私たちは、まず既存の相当なデータセットを音声合成のニーズに適合させることで、4 億 5,000 万人以上の母語話者がいる言語であるアラビア語のこのギャップに対処します。
さらに、一連のアラビア語方言識別モデルを使用して、複数の方言設定における ZS-TTS モデルの改善に対する事前定義された方言ラベルの影響を調査します。
続いて、XTTS\脚注{https://docs.coqui.ai/en/latest/models/xtts.html}\脚注{https://medium.com/machine-learns/xtts-v2- を微調整します。
new-version-of-the-open-source-text-to-speech-model-af73914db81f}\footnote{https://medium.com/@erogol/xtts-v1-techincal-notes-eb83ff05bdc} モデル、オープン
-ソースアーキテクチャ。
次に、31 人の未見の話者と社内の方言データセットで構成されるデータセットでモデルを評価します。
当社の自動評価と人間による評価の結果は、方言音声を生成できると同時に、説得力のあるパフォーマンスを示しています。
私たちの研究は、アラビア語のこの新興研究分野における改善の大きな可能性を浮き彫りにしています。

要約(オリジナル)

Zero-shot multi-speaker text-to-speech (ZS-TTS) systems have advanced for English, however, it still lags behind due to insufficient resources. We address this gap for Arabic, a language of more than 450 million native speakers, by first adapting a sizeable existing dataset to suit the needs of speech synthesis. Additionally, we employ a set of Arabic dialect identification models to explore the impact of pre-defined dialect labels on improving the ZS-TTS model in a multi-dialect setting. Subsequently, we fine-tune the XTTS\footnote{https://docs.coqui.ai/en/latest/models/xtts.html}\footnote{https://medium.com/machine-learns/xtts-v2-new-version-of-the-open-source-text-to-speech-model-af73914db81f}\footnote{https://medium.com/@erogol/xtts-v1-techincal-notes-eb83ff05bdc} model, an open-source architecture. We then evaluate our models on a dataset comprising 31 unseen speakers and an in-house dialectal dataset. Our automated and human evaluation results show convincing performance while capable of generating dialectal speech. Our study highlights significant potential for improvements in this emerging area of research in Arabic.

arxiv情報

著者 Khai Duy Doan,Abdul Waheed,Muhammad Abdul-Mageed
発行日 2024-06-25 14:18:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク