要約
本論文では、典型的な複数話者の音響モデルとして、テキストと音声データのみで学習する歌声合成モデルKaraoker-SSLを提案する。Karaoker-SSLは、音声データを用いて学習されるため、歌声データをエンド・ツー・エンドで利用しない低リソースパイプラインである。Karaoker-SSLは、教師なし方法で自己教師付き音声表現によって条件付けされる。タスクに関連する次元のサブセットのみを選択することで、これらの表現を前処理する。条件付けモジュールは、マルチタスクによる訓練中にスタイル情報を取り込むように間接的に誘導される。これは、音響モデルの出力からピッチを予測するコンフォーマーベースのモジュールによって達成される。このように、Karaoker-SSLは、手作業やドメイン固有の特徴に依存することなく、歌声合成を可能にする。また、テキストアラインメントや歌詞のタイムスタンプも必要ありません。声質を洗練させるために、ターゲットスピーカーに条件付けされたU-Net識別器を採用し、拡散GAN学習スキームに従っている。
要約(オリジナル)
In this paper, we propose a singing voice synthesis model, Karaoker-SSL, that is trained only on text and speech data as a typical multi-speaker acoustic model. It is a low-resource pipeline that does not utilize any singing data end-to-end, since its vocoder is also trained on speech data. Karaoker-SSL is conditioned by self-supervised speech representations in an unsupervised manner. We preprocess these representations by selecting only a subset of their task-correlated dimensions. The conditioning module is indirectly guided to capture style information during training by multi-tasking. This is achieved with a Conformer-based module, which predicts the pitch from the acoustic model’s output. Thus, Karaoker-SSL allows singing voice synthesis without reliance on hand-crafted and domain-specific features. There are also no requirements for text alignments or lyrics timestamps. To refine the voice quality, we employ a U-Net discriminator that is conditioned on the target speaker and follows a Diffusion GAN training scheme.
arxiv情報
著者 | Panos Kakoulidis,Nikolaos Ellinas,Georgios Vamvoukakis,Myrsini Christidou,Alexandra Vioni,Georgia Maniati,Junkwang Oh,Gunu Jho,Inchul Hwang,Pirros Tsiakoulis,Aimilios Chalamandaris |
発行日 | 2024-02-02 16:06:24+00:00 |
arxivサイト | arxiv_id(pdf) |