ControlSpeech: Towards Simultaneous Zero-shot Speaker Cloning and Zero-shot Language Style Control With Decoupled Codec

要約

この論文では、話者の音声を完全に複製し、数秒間の音声プロンプトと単純なテキスト形式の説明に基づいて話し方の任意の制御と調整を可能にするテキスト読み上げ (TTS) システムである ControlSpeech を紹介します。
プロンプト。
以前のゼロショット TTS モデルおよび制御可能な TTS モデルは、さらなる制御および調整機能なしで話者の音声を模倣することしかできなかったか、話者固有の音声生成とは無関係でした。
したがって、ControlSpeech は、より挑戦的な新しいタスク、つまり制御可能な音色、コンテンツ、スタイルを同時に備えた TTS システムに焦点を当てています。
ControlSpeech は、音声プロンプト、コンテンツ プロンプト、スタイル プロンプトを入力として受け取り、双方向アテンションとマスクベースの並列デコードを利用して、対応するコーデック表現を個別のデカップリング コーデック スペースでキャプチャします。
さらに、多対多マッピング方式でのテキスト スタイルの制御可能性の問題を発見し、この問題を解決するためにスタイル混合セマンティック密度 (SMSD) モデルを提案しました。
ガウス混合密度ネットワークに基づく SMSD モジュールは、スタイル意味情報のきめの細かい分割およびサンプリング機能を強化し、より多様なスタイルの音声を生成するように設計されています。
実験に関しては、新しいスタイルの制御可能なデータセット、いくつかの複製されたベースライン モデルを備えた ControlToolkit と呼ばれる制御可能なモデル ツールキットを利用可能にし、ControlSpeech で生成された音声の制御能力と品質の両方を評価するための新しい指標を提案します。
関連するアブレーション研究により、ControlSpeech の各コンポーネントの必要性が検証されています。
私たちは、ControlSpeech が制御可能な音声合成の次の基礎パラダイムを確立できることを期待しています。
関連するコードとデモは https://github.com/jishengpeng/ControlSpeech で入手できます。

要約(オリジナル)

In this paper, we present ControlSpeech, a text-to-speech (TTS) system capable of fully cloning the speaker’s voice and enabling arbitrary control and adjustment of speaking style, merely based on a few seconds of audio prompt and a simple textual style description prompt. Prior zero-shot TTS models and controllable TTS models either could only mimic the speaker’s voice without further control and adjustment capabilities or were unrelated to speaker-specific voice generation. Therefore, ControlSpeech focuses on a more challenging new task-a TTS system with controllable timbre, content, and style at the same time. ControlSpeech takes speech prompts, content prompts, and style prompts as inputs and utilizes bidirectional attention and mask-based parallel decoding to capture corresponding codec representations in a discrete decoupling codec space. Moreover, we discovered the issue of text style controllability in a many-to-many mapping fashion and proposed the Style Mixture Semantic Density (SMSD) model to resolve this problem. SMSD module which is based on Gaussian mixture density networks, is designed to enhance the fine-grained partitioning and sampling capabilities of style semantic information and generate speech with more diverse styles. In terms of experiments, we make available a controllable model toolkit called ControlToolkit with a new style controllable dataset, some replicated baseline models and propose new metrics to evaluate both the control capability and the quality of generated audio in ControlSpeech. The relevant ablation studies validate the necessity of each component in ControlSpeech is necessary. We hope that ControlSpeech can establish the next foundation paradigm of controllable speech synthesis. The relevant code and demo are available at https://github.com/jishengpeng/ControlSpeech .

arxiv情報

著者 Shengpeng Ji,Jialong Zuo,Wen Wang,Minghui Fang,Siqi Zheng,Qian Chen,Ziyue Jiang,Hai Huang,Zehan Wang,Xize Cheng,Zhou Zhao
発行日 2024-10-22 16:26:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク