Better speech synthesis through scaling

要約

近年、画像生成の分野は、自己回帰変換器やDDPMの応用により、革命的な変化を遂げている。これらのアプローチは、画像生成のプロセスを段階的な確率的プロセスとしてモデル化し、大量の計算とデータを活用して画像分布を学習する。このような性能向上の方法論は、画像に限定する必要はない。この論文では、画像生成領域の進歩を音声合成に応用する方法について説明する。その結果、TorToise(表現力豊かな多声の音声合成システム)が誕生した。 すべてのモデルコードと学習済み重みは、https://github.com/neonbjb/tortoise-tts でオープンソース化されています。

要約(オリジナル)

In recent years, the field of image generation has been revolutionized by the application of autoregressive transformers and DDPMs. These approaches model the process of image generation as a step-wise probabilistic processes and leverage large amounts of compute and data to learn the image distribution. This methodology of improving performance need not be confined to images. This paper describes a way to apply advances in the image generative domain to speech synthesis. The result is TorToise — an expressive, multi-voice text-to-speech system. All model code and trained weights have been open-sourced at https://github.com/neonbjb/tortoise-tts.

arxiv情報

著者 James Betker
発行日 2023-05-12 04:19:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク