VisualSpeech: Enhance Prosody with Visual Context in TTS

要約

テキストからスピーチ(TTS)合成は、単一のテキスト入力から韻律が異なる複数の音声出力を生成するという固有の課題に直面しています。
以前の研究では、テキストと音声の両方から韻律情報を予測することでこれに対処していますが、視覚的特徴などの追加の文脈情報は十分に活用されていません。
このペーパーでは、視覚的コンテキストを統合して韻律の予測を強化する可能性を調査します。
改善された韻律生成のための視覚情報とテキスト情報の両方を組み込んだ新しいモデルであるVisualSpeechを提案します。
経験的な結果は、視覚的な特徴がテキスト入力を超えて貴重な韻律的キューを提供し、合成された音声の自然性と精度を大幅に向上させることを示しています。
オーディオサンプルはhttps://ariameetgit.github.io/visualspeech-samples/で入手できます。

要約(オリジナル)

Text-to-Speech (TTS) synthesis faces the inherent challenge of producing multiple speech outputs with varying prosody from a single text input. While previous research has addressed this by predicting prosodic information from both text and speech, additional contextual information, such as visual features, remains underutilized. This paper investigates the potential of integrating visual context to enhance prosody prediction. We propose a novel model, VisualSpeech, which incorporates both visual and textual information for improved prosody generation. Empirical results demonstrate that visual features provide valuable prosodic cues beyond the textual input, significantly enhancing the naturalness and accuracy of the synthesized speech. Audio samples are available at https://ariameetgit.github.io/VISUALSPEECH-SAMPLES/.

arxiv情報

著者 Shumin Que,Anton Ragni
発行日 2025-01-31 16:16:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク