The IMS Toucan System for the Blizzard Challenge 2023


Blizzard Challenge 2023 への貢献として、Blizzard Challenge 2021 に提出したシステムを改良しました。私たちのアプローチには、フランス語における同形異義語のルールベースの曖昧さ回避を含む、ルールベースのテキストから音素への処理システムが必要です。
次に、Conformer と Glow に基づく高速かつ効率的な非自己回帰合成アーキテクチャを使用して、音素を中間表現としてスペクトログラムに変換します。
最近の最先端のアプローチを組み合わせた GAN ベースのニューラル ボコーダーは、スペクトログラムを最終波形に変換します。
私たちは、チャレンジ データのデータ処理、トレーニング、推論手順を慎重に設計しました。
私たちのシステム識別子は G です。オープンソース コードとデモが利用可能です。


For our contribution to the Blizzard Challenge 2023, we improved on the system we submitted to the Blizzard Challenge 2021. Our approach entails a rule-based text-to-phoneme processing system that includes rule-based disambiguation of homographs in the French language. It then transforms the phonemes to spectrograms as intermediate representations using a fast and efficient non-autoregressive synthesis architecture based on Conformer and Glow. A GAN based neural vocoder that combines recent state-of-the-art approaches converts the spectrogram to the final wave. We carefully designed the data processing, training, and inference procedures for the challenge data. Our system identifier is G. Open source code and demo are available.


著者 Florian Lux,Julia Koch,Sarina Meyer,Thomas Bott,Nadja Schauffler,Pavel Denisov,Antje Schweitzer,Ngoc Thang Vu
発行日 2023-10-26 15:53:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.LG, eess.AS パーマリンク