Multi-Modal Automatic Prosody Annotation with Contrastive Pretraining of SSWP

要約

表現力豊かで制御可能な Text-to-Speech (TTS) では、明示的な韻律特徴により、合成音声の自然さと制御性が大幅に向上します。
ただし、手動による韻律のアノテーションは多大な労力を要し、一貫性がありません。
この問題に対処するために、この論文では 2 段階の自動アノテーション パイプラインが新たに提案されています。
最初の段階では、音声と沈黙と単語と句読点 (SSWP) のペアの対照的な事前学習を使用して、潜在表現の韻律情報を強化します。
第 2 段階では、事前トレーニングされたエンコーダー、テキストと音声の融合スキーム、およびシーケンス分類子で構成されるマルチモーダル韻律アノテーターを構築します。
英語の韻律境界に関する実験では、私たちの方法が韻律単語と韻律句の境界でそれぞれ 0.72 と 0.93 の f1 スコアという最先端の (SOTA) パフォーマンスを達成しながら、データ不足に対する顕著な堅牢性を備えていることが実証されました。

要約(オリジナル)

In expressive and controllable Text-to-Speech (TTS), explicit prosodic features significantly improve the naturalness and controllability of synthesised speech. However, manual prosody annotation is labor-intensive and inconsistent. To address this issue, a two-stage automatic annotation pipeline is novelly proposed in this paper. In the first stage, we use contrastive pretraining of Speech-Silence and Word-Punctuation (SSWP) pairs to enhance prosodic information in latent representations. In the second stage, we build a multi-modal prosody annotator, comprising pretrained encoders, a text-speech fusing scheme, and a sequence classifier. Experiments on English prosodic boundaries demonstrate that our method achieves state-of-the-art (SOTA) performance with 0.72 and 0.93 f1 score for Prosodic Word and Prosodic Phrase boundary respectively, while bearing remarkable robustness to data scarcity.

arxiv情報

著者 Jinzuomu Zhong,Yang Li,Hui Huang,Korin Richmond,Jie Liu,Zhiba Su,Jing Guo,Benlai Tang,Fengjie Zhu
発行日 2024-06-11 16:43:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク