要約
表現力豊かで制御可能な Text-to-Speech (TTS) では、明示的な韻律特徴により、合成音声の自然さと制御性が大幅に向上します。
ただし、手動による韻律のアノテーションは多大な労力を要し、一貫性がありません。
この問題に対処するために、この論文では 2 段階の自動アノテーション パイプラインが新たに提案されています。
最初の段階では、音声と沈黙と単語と句読点 (SSWP) のペアの対照的な事前学習を使用して、潜在表現の韻律情報を強化します。
第 2 段階では、事前トレーニングされたエンコーダー、テキストと音声の融合スキーム、およびシーケンス分類子で構成されるマルチモーダル韻律アノテーターを構築します。
英語の韻律境界に関する実験では、私たちの方法が韻律単語と韻律句の境界でそれぞれ 0.72 と 0.93 の f1 スコアという最先端の (SOTA) パフォーマンスを達成しながら、データ不足に対する顕著な堅牢性を備えていることが実証されました。
要約(オリジナル)
In expressive and controllable Text-to-Speech (TTS), explicit prosodic features significantly improve the naturalness and controllability of synthesised speech. However, manual prosody annotation is labor-intensive and inconsistent. To address this issue, a two-stage automatic annotation pipeline is novelly proposed in this paper. In the first stage, we use contrastive pretraining of Speech-Silence and Word-Punctuation (SSWP) pairs to enhance prosodic information in latent representations. In the second stage, we build a multi-modal prosody annotator, comprising pretrained encoders, a text-speech fusing scheme, and a sequence classifier. Experiments on English prosodic boundaries demonstrate that our method achieves state-of-the-art (SOTA) performance with 0.72 and 0.93 f1 score for Prosodic Word and Prosodic Phrase boundary respectively, while bearing remarkable robustness to data scarcity.
arxiv情報
著者 | Jinzuomu Zhong,Yang Li,Hui Huang,Korin Richmond,Jie Liu,Zhiba Su,Jing Guo,Benlai Tang,Fengjie Zhu |
発行日 | 2024-06-11 16:43:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google