Efficiently Trained Low-Resource Mongolian Text-to-Speech System Based On FullConv-TTS

要約

タイトル:FullConv-TTSに基づく効率的に訓練された低リソースなモンゴル語テキスト音声合成システム

要約:
– RNNはシーケンスデータの標準的なモデリング技術となっており、新しいテキスト音声合成モデルで使用されています。
– しかし、RNNを含むTTSモデルを訓練するには、GPUのパフォーマンスに特定の要件があり、長時間かかることがあります。
– 一方、CNNベースのシーケンス合成技術は、高い並列性により、テキスト音声合成モデルの訓練時間を大幅に短縮することができることが示されています。
– 我々は、再帰ユニットを使用しない深層畳み込みニューラルネットワークに基づく新しいテキスト音声合成システムを提案しています。
– 同時に、タイムワーピング、周波数マスク、タイムマスクなどの一連のデータ拡張手法により、モデルの汎用性と頑強性を向上させます。
– 最終的な実験結果は、Tacotronなどの古典的なTTSモデルと比較して、CNNコンポーネントのみを使用するTTSモデルが、合成音声の品質を保証しながら訓練時間を短縮できることを示しています。

要約(オリジナル)

Recurrent Neural Networks (RNNs) have become the standard modeling technique for sequence data, and are used in a number of novel text-to-speech models. However, training a TTS model including RNN components has certain requirements for GPU performance and takes a long time. In contrast, studies have shown that CNN-based sequence synthesis technology can greatly reduce training time in text-to-speech models while ensuring a certain performance due to its high parallelism. We propose a new text-to-speech system based on deep convolutional neural networks that does not employ any RNN components (recurrent units). At the same time, we improve the generality and robustness of our model through a series of data augmentation methods such as Time Warping, Frequency Mask, and Time Mask. The final experimental results show that the TTS model using only the CNN component can reduce the training time compared to the classic TTS models such as Tacotron while ensuring the quality of the synthesized speech.

arxiv情報

著者 Ziqi Liang
発行日 2023-04-16 05:01:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク