要約
会話型音声合成 (CSS) は、ユーザー エージェントの会話設定において、ターゲットの発話を適切な話し方で表現することを目的としています。
既存の CSS 手法では、効果的なマルチモーダル コンテキスト モデリング技術を採用して、共感の理解と表現を実現しています。
ただし、多くの場合、複雑なネットワーク アーキテクチャを設計し、そのネットワーク内のモジュールを細心の注意を払って最適化する必要があります。
さらに、スクリプト化された録音スタイルを含む小規模なデータセットには制限があるため、実際の自然な会話スタイルをシミュレートできないことがよくあります。
上記の問題に対処するために、我々は GPT-Talker と呼ばれる新しい生成表現 CSS システムを提案します。我々は、マルチターン対話履歴のマルチモーダル情報を個別のトークン シーケンスに変換し、それらをシームレスに統合して、包括的なユーザー エージェント対話コンテキストを形成します。
GPT の能力を活用して、エージェントの応答の意味論的知識とスタイル知識の両方を含むトークン シーケンスを予測します。
その後、表情豊かな会話音声が会話強化 VITS によって合成され、ユーザーにフィードバックが提供されます。さらに、即興スタイルで自然に記録された会話音声と、会話から抽出された会話の両方を含む、NCSSD と呼ばれる大規模な Natural CSS データセットを提案します。
テレビ番組。
中国語と英語の両方の言語が含まれており、合計所要時間は 236 時間です。NCSSD の信頼性と GPT トーカーの有効性に関する包括的な実験を実施しました。
主観的評価と客観的評価の両方で、私たちのモデルが自然さと表現力の点で他の最先端の CSS システムよりも大幅に優れていることが実証されています。
コード、データセット、および事前トレーニング済みモデルは、https://github.com/AI-S2-Lab/GPT-Talker で入手できます。
要約(オリジナル)
Conversational Speech Synthesis (CSS) aims to express a target utterance with the proper speaking style in a user-agent conversation setting. Existing CSS methods employ effective multi-modal context modeling techniques to achieve empathy understanding and expression. However, they often need to design complex network architectures and meticulously optimize the modules within them. In addition, due to the limitations of small-scale datasets containing scripted recording styles, they often fail to simulate real natural conversational styles. To address the above issues, we propose a novel generative expressive CSS system, termed GPT-Talker.We transform the multimodal information of the multi-turn dialogue history into discrete token sequences and seamlessly integrate them to form a comprehensive user-agent dialogue context. Leveraging the power of GPT, we predict the token sequence, that includes both semantic and style knowledge, of response for the agent. After that, the expressive conversational speech is synthesized by the conversation-enriched VITS to deliver feedback to the user.Furthermore, we propose a large-scale Natural CSS Dataset called NCSSD, that includes both naturally recorded conversational speech in improvised styles and dialogues extracted from TV shows. It encompasses both Chinese and English languages, with a total duration of 236 hours.We conducted comprehensive experiments on the reliability of the NCSSD and the effectiveness of our GPT-Talker. Both subjective and objective evaluations demonstrate that our model outperforms other state-of-the-art CSS systems significantly in terms of naturalness and expressiveness. The Code, Dataset, and Pre-trained Model are available at: https://github.com/AI-S2-Lab/GPT-Talker.
arxiv情報
著者 | Rui Liu,Yifan Hu,Ren Yi,Yin Xiang,Haizhou Li |
発行日 | 2024-07-31 10:02:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google