要約
私たちは、入力話者の音色を維持しながら、年齢、性別、アクセント、話し方などの音声の複数の属性を 1 回の順方向パスで変更できる、新しい音声合成フレームワークである VoiceShop を紹介します。
以前の作品は、これらの属性を個別に編集することしかできない特殊なモデルに制約されており、次の落とし穴に悩まされていました。変換効果の大きさが弱い、配信外のスピーカーに対するゼロショット機能がない、または合成出力
望ましくない音色漏れが発生します。
私たちの研究では、条件付き拡散バックボーン モデルに基づくシンプルなモジュール式フレームワークで、これらの問題のそれぞれに対する解決策を提案しています。オプションの正規化フロー ベースおよびシーケンス間の話者属性編集モジュールを使用します。そのコンポーネントは、要件を満たすために推論中に結合または削除できます。
追加のモデル微調整なしで幅広いタスクを実行できます。
音声サンプルは \url{https://voiceshopai.github.io} で入手できます。
要約(オリジナル)
We present VoiceShop, a novel speech-to-speech framework that can modify multiple attributes of speech, such as age, gender, accent, and speech style, in a single forward pass while preserving the input speaker’s timbre. Previous works have been constrained to specialized models that can only edit these attributes individually and suffer from the following pitfalls: the magnitude of the conversion effect is weak, there is no zero-shot capability for out-of-distribution speakers, or the synthesized outputs exhibit undesirable timbre leakage. Our work proposes solutions for each of these issues in a simple modular framework based on a conditional diffusion backbone model with optional normalizing flow-based and sequence-to-sequence speaker attribute-editing modules, whose components can be combined or removed during inference to meet a wide array of tasks without additional model finetuning. Audio samples are available at \url{https://voiceshopai.github.io}.
arxiv情報
著者 | Philip Anastassiou,Zhenyu Tang,Kainan Peng,Dongya Jia,Jiaxin Li,Ming Tu,Yuping Wang,Yuxuan Wang,Mingbo Ma |
発行日 | 2024-04-11 17:52:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google