要約
近年、大規模音声合成(TTS)モデルは大きな進歩を遂げているが、中国語の方言音声の生成においてはまだ不十分である。この問題に対処するため、我々は、高品質の中国語方言音声を生成できる大規模TTSモデルファミリーであるBailing-TTSを提案する。Bailing-TTSは中国語方言音声生成の基礎モデルとして機能する。まず、テキストトークンと音声トークンのアライメントを容易にするために、継続的な半教師付き学習が提案される。第二に、中国語の方言表現学習は、特定の変換器アーキテクチャと多段学習プロセスを用いて開発される。提案された新しいネットワークアーキテクチャの設計と対応する戦略により、Bailing-TTSはテキストから中国語方言音声を効果的かつ効率的に生成することができる。実験では、Bailing-TTSが人間のような自然な表現で中国語方言音声を生成することが実証された。読者の皆様は、是非、゙url{https://c9412600.github.io/bltts_tech_report/index.html}でデモをお聴きください。
要約(オリジナル)
Large-scale text-to-speech (TTS) models have made significant progress recently.However, they still fall short in the generation of Chinese dialectal speech. Toaddress this, we propose Bailing-TTS, a family of large-scale TTS models capable of generating high-quality Chinese dialectal speech. Bailing-TTS serves as a foundation model for Chinese dialectal speech generation. First, continual semi-supervised learning is proposed to facilitate the alignment of text tokens and speech tokens. Second, the Chinese dialectal representation learning is developed using a specific transformer architecture and multi-stage training processes. With the proposed design of novel network architecture and corresponding strategy, Bailing-TTS is able to generate Chinese dialectal speech from text effectively and efficiently. Experiments demonstrate that Bailing-TTS generates Chinese dialectal speech towards human-like spontaneous representation. Readers are encouraged to listen to demos at \url{https://c9412600.github.io/bltts_tech_report/index.html}.
arxiv情報
著者 | Xinhan Di,Zihao Chen,Yunming Liang,Junjie Zheng,Yihua Wang,Chaofan Ding |
発行日 | 2024-08-01 04:57:31+00:00 |
arxivサイト | arxiv_id(pdf) |