Towards Spontaneous Style Modeling with Semi-supervised Pre-training for Conversational Text-to-Speech Synthesis

要約

会話中に自然発生的な動作が頻繁に発生するため、読み上げ形式に比べて話し言葉がより人間らしくなります。
ただし、自発的な音声を合成することは、高品質の自発的なデータセットが不足していることと、自発的な行動のラベル付けにコストがかかるため、困難です。
この論文では、自発的なスタイルの音声と自発的な行動のラベルの量を増やすための半教師あり事前トレーニング方法を提案します。
半教師あり学習のプロセスでは、音声内の自発的行動ラベルを検出するためにテキスト情報と音声情報の両方が考慮されます。
さらに、言語を意識したエンコーダーを使用して、会話内の各文間の関係をモデル化します。
実験結果は、私たちの提案方法が、自発的なスタイルの音声における自発的な行動をモデル化し、テキストから合理的な自発的な行動を予測する機能を備えた、優れた表現力豊かな音声合成パフォーマンスを達成することを示しています。

要約(オリジナル)

The spontaneous behavior that often occurs in conversations makes speech more human-like compared to reading-style. However, synthesizing spontaneous-style speech is challenging due to the lack of high-quality spontaneous datasets and the high cost of labeling spontaneous behavior. In this paper, we propose a semi-supervised pre-training method to increase the amount of spontaneous-style speech and spontaneous behavioral labels. In the process of semi-supervised learning, both text and speech information are considered for detecting spontaneous behaviors labels in speech. Moreover, a linguistic-aware encoder is used to model the relationship between each sentence in the conversation. Experimental results indicate that our proposed method achieves superior expressive speech synthesis performance with the ability to model spontaneous behavior in spontaneous-style speech and predict reasonable spontaneous behavior from text.

arxiv情報

著者 Weiqin Li,Shun Lei,Qiaochu Huang,Yixuan Zhou,Zhiyong Wu,Shiyin Kang,Helen Meng
発行日 2023-08-31 09:50:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク