要約
人間のような音声を生成することを目的とした自発的なスタイルの音声合成は、高品質のデータの不足とモデルの機能の制限により、課題に直面することがよくあります。
最近の言語モデルベースの TTS システムは、大規模で多様な低品質の音声データセットでトレーニングできるため、非常に自然な合成音声が得られます。
ただし、さまざまな自発的な行動をシミュレートしたり、自発的な音声の韻律の変化をキャプチャしたりすることが難しいため、限界があります。
本稿では、言語モデルに基づいた新しい自発音声合成システムを提案する。
私たちは、多様な自発的行動を体系的に分類し、均一にモデル化します。
さらに、自発的な音声における微妙な韻律の変化を捕捉するモデルの能力を強化するために、きめの細かい韻律モデリングが導入されています。実験結果は、私たちが提案した方法が韻律の自然さと自発的な行動の自然さの点でベースラインの方法を大幅に上回ることを示しています。
要約(オリジナル)
Spontaneous style speech synthesis, which aims to generate human-like speech, often encounters challenges due to the scarcity of high-quality data and limitations in model capabilities. Recent language model-based TTS systems can be trained on large, diverse, and low-quality speech datasets, resulting in highly natural synthesized speech. However, they are limited by the difficulty of simulating various spontaneous behaviors and capturing prosody variations in spontaneous speech. In this paper, we propose a novel spontaneous speech synthesis system based on language models. We systematically categorize and uniformly model diverse spontaneous behaviors. Moreover, fine-grained prosody modeling is introduced to enhance the model’s ability to capture subtle prosody variations in spontaneous speech.Experimental results show that our proposed method significantly outperforms the baseline methods in terms of prosody naturalness and spontaneous behavior naturalness.
arxiv情報
著者 | Weiqin Li,Peiji Yang,Yicheng Zhong,Yixuan Zhou,Zhisheng Wang,Zhiyong Wu,Xixin Wu,Helen Meng |
発行日 | 2024-07-18 13:42:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google