Visual-Aware Text-to-Speech

要約

対面での対話では、聞いている頭に積極的に反応する話し言葉を動的に合成することが重要です。
たとえば、話者は聞き手の表情を利用して、声のトーン、強調された音節、またはポーズを調整できます。
この研究では、対面での聞き手のテキスト入力と連続した視覚フィードバック (うなずき、笑顔など) の両方を条件とした音声を合成する、新しい視覚認識テキスト読み上げ (VA-TTS) タスクを提示します。
コミュニケーション。
従来のテキスト読み上げとは異なり、VA-TTS は視覚的なモダリティの影響を強調します。
この新たに作成されたタスクに基づいて、音声合成のための音素言語情報とリスナーの視覚信号を融合するためのベースライン モデルを考案します。
マルチモーダル会話データセット ViCo-X に関する広範な実験により、シナリオに適したリズムと韻律を備えたより自然な音声を生成するという私たちの提案が検証されました。

要約(オリジナル)

Dynamically synthesizing talking speech that actively responds to a listening head is critical during the face-to-face interaction. For example, the speaker could take advantage of the listener’s facial expression to adjust the tones, stressed syllables, or pauses. In this work, we present a new visual-aware text-to-speech (VA-TTS) task to synthesize speech conditioned on both textual inputs and sequential visual feedback (e.g., nod, smile) of the listener in face-to-face communication. Different from traditional text-to-speech, VA-TTS highlights the impact of visual modality. On this newly-minted task, we devise a baseline model to fuse phoneme linguistic information and listener visual signals for speech synthesis. Extensive experiments on multimodal conversation dataset ViCo-X verify our proposal for generating more natural audio with scenario-appropriate rhythm and prosody.

arxiv情報

著者 Mohan Zhou,Yalong Bai,Wei Zhang,Ting Yao,Tiejun Zhao,Tao Mei
発行日 2023-06-21 05:11:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク