要約
この研究では、さまざまな Text-to-Speech (TTS) モデルを使用してスイスドイツ語の音声合成を研究しました。
3 つのコーパスで TTS モデルを評価したところ、VITS モデルが最も優れたパフォーマンスを発揮することがわかり、さらなるテストに VITS モデルを使用しました。
また、トレーニングされたボコーダー GAN モデルの弁別器に、特定の波形が人間のものであるか合成されたものであるかを予測させることにより、TTS モデルを評価する新しい方法も紹介します。
要約すると、私たちの最良のモデルは、これまで達成できなかった品質で、さまざまなスイスドイツ語の方言の音声合成を実現します。
要約(オリジナル)
In this work, we studied the synthesis of Swiss German speech using different Text-to-Speech (TTS) models. We evaluated the TTS models on three corpora, and we found, that VITS models performed best, hence, using them for further testing. We also introduce a new method to evaluate TTS models by letting the discriminator of a trained vocoder GAN model predict whether a given waveform is human or synthesized. In summary, our best model delivers speech synthesis for different Swiss German dialects with previously unachieved quality.
arxiv情報
著者 | Tobias Bollinger,Jan Deriu,Manfred Vogel |
発行日 | 2023-05-31 11:33:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google