要約
ニューラル HMM は、テキスト読み上げにおけるシーケンス間モデリング用に最近提案された神経トランスデューサーの一種です。
これらは、古典的な統計的音声合成と最新のニューラル TTS の最良の機能を組み合わせており、必要なデータとトレーニングの更新が少なくなり、ニューラル アテンションの失敗によって引き起こされる意味不明な出力が発生しにくくなります。
この論文では、音声音響の高度に非ガウス分布を記述するために、ニューラル HMM TTS と正規化フローを組み合わせます。
その結果、正確な最大尤度を使用してトレーニングできる、持続時間と音響の強力で完全に確率的なモデルが得られます。
実験の結果、私たちの提案に基づくシステムは、正確な発音と自然な音声に近い主観的な音声品質を生成するために、同等の方法よりも更新が少なくて済むことが示されています。
音声の例とコードについては、https://shivammehta25.github.io/OverFlow/ を参照してください。
要約(オリジナル)
Neural HMMs are a type of neural transducer recently proposed for sequence-to-sequence modelling in text-to-speech. They combine the best features of classic statistical speech synthesis and modern neural TTS, requiring less data and fewer training updates, and are less prone to gibberish output caused by neural attention failures. In this paper, we combine neural HMM TTS with normalising flows for describing the highly non-Gaussian distribution of speech acoustics. The result is a powerful, fully probabilistic model of durations and acoustics that can be trained using exact maximum likelihood. Experiments show that a system based on our proposal needs fewer updates than comparable methods to produce accurate pronunciations and a subjective speech quality close to natural speech. Please see https://shivammehta25.github.io/OverFlow/ for audio examples and code.
arxiv情報
著者 | Shivam Mehta,Ambika Kirkland,Harm Lameris,Jonas Beskow,Éva Székely,Gustav Eje Henter |
発行日 | 2023-05-29 14:23:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google