NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers

要約

Text-to-Speech(TTS)を大規模で複数の話者が存在する自然環境のデータセットにスケーリングすることは、話者のアイデンティティ、韻律、スタイル(歌唱など)などの人間の音声の多様性を捉えるために重要です。
現在の大規模な TTS システムは通常、音声を個別のトークンに量子化し、言語モデルを使用してこれらのトークンを 1 つずつ生成しますが、不安定な韻律、単語のスキップ/繰り返しの問題、音声品質の低下といった問題があります。
この論文では、残差ベクトル量子化器を備えたニューラル オーディオ コーデックを利用して量子化された潜在ベクトルを取得し、拡散モデルを使用してテキスト入力に条件付けされたこれらの潜在ベクトルを生成する TTS システムである NaturalSpeech 2 を開発します。
多様な音声合成を実現するために重要なゼロショット機能を強化するために、拡散モデルおよび持続時間/ピッチ予測器でのコンテキスト内学習を促進する音声プロンプト メカニズムを設計します。
NaturalSpeech 2 を 44,000 時間の音声および歌唱データを含む大規模なデータセットに拡張し、目に見えない話者での音声品質を評価します。
NaturalSpeech 2 は、韻律/音色の類似性、堅牢性、およびゼロショット設定での音声品質の点で、以前の TTS システムよりも大幅に優れており、音声プロンプトのみで新しいゼロショット歌唱合成を実行します。
音声サンプルは https://speechresearch.github.io/naturalspeech2 で入手できます。

要約(オリジナル)

Scaling text-to-speech (TTS) to large-scale, multi-speaker, and in-the-wild datasets is important to capture the diversity in human speech such as speaker identities, prosodies, and styles (e.g., singing). Current large TTS systems usually quantize speech into discrete tokens and use language models to generate these tokens one by one, which suffer from unstable prosody, word skipping/repeating issue, and poor voice quality. In this paper, we develop NaturalSpeech 2, a TTS system that leverages a neural audio codec with residual vector quantizers to get the quantized latent vectors and uses a diffusion model to generate these latent vectors conditioned on text input. To enhance the zero-shot capability that is important to achieve diverse speech synthesis, we design a speech prompting mechanism to facilitate in-context learning in the diffusion model and the duration/pitch predictor. We scale NaturalSpeech 2 to large-scale datasets with 44K hours of speech and singing data and evaluate its voice quality on unseen speakers. NaturalSpeech 2 outperforms previous TTS systems by a large margin in terms of prosody/timbre similarity, robustness, and voice quality in a zero-shot setting, and performs novel zero-shot singing synthesis with only a speech prompt. Audio samples are available at https://speechresearch.github.io/naturalspeech2.

arxiv情報

著者 Kai Shen,Zeqian Ju,Xu Tan,Yanqing Liu,Yichong Leng,Lei He,Tao Qin,Sheng Zhao,Jiang Bian
発行日 2023-05-30 16:09:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS パーマリンク