M2-CTTS: End-to-End Multi-scale Multi-modal Conversational Text-to-Speech Synthesis

要約

【タイトル】
M2-CTTS: 多層多様な言語・音声モダリティに対応した会話型テキスト音声合成

【要約】
– 会話型テキスト音声合成の目的は、適切な抑揚を持った音声を発声することである。
– しかし、会話を包括的にモデリングすることは依然として課題であり、多くの会話型TTSシステムはグローバルな情報のみを抽出し、キーワードや強調などの重要な細かい情報を含むローカルなアクセント特徴を除外する傾向がある。
– また、テキストの特徴だけを考慮しても不十分であり、音声特徴も様々な抑揚情報を含んでいる。
– したがって、筆者らは、多層多様な言語・音声モダリティに対応したM2-CTTSを提案し、過去の会話を包括的に活用し、抑揚表現を向上させることを目標とする。
– 具体的には、テキストコンテキストモジュールと音声コンテキストモジュールを、粗いグレインと細かいグレインの両方でのモデリングによって設計し、音響特徴も考慮に入れたモデルを提唱する。
– 試験結果は、細分化されたコンテキスト情報を混合し、音響特徴も考慮に入れたモデルがCMOSテストでより優れた抑揚性能と自然さを実現していることを示している。

要約(オリジナル)

Conversational text-to-speech (TTS) aims to synthesize speech with proper prosody of reply based on the historical conversation. However, it is still a challenge to comprehensively model the conversation, and a majority of conversational TTS systems only focus on extracting global information and omit local prosody features, which contain important fine-grained information like keywords and emphasis. Moreover, it is insufficient to only consider the textual features, and acoustic features also contain various prosody information. Hence, we propose M2-CTTS, an end-to-end multi-scale multi-modal conversational text-to-speech system, aiming to comprehensively utilize historical conversation and enhance prosodic expression. More specifically, we design a textual context module and an acoustic context module with both coarse-grained and fine-grained modeling. Experimental results demonstrate that our model mixed with fine-grained context information and additionally considering acoustic features achieves better prosody performance and naturalness in CMOS tests.

arxiv情報

著者 Jinlong Xue,Yayue Deng,Fengping Wang,Ya Li,Yingming Gao,Jianhua Tao,Jianqing Sun,Jiaen Liang
発行日 2023-05-03 16:59:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク