Enhancing the vocal range of single-speaker singing voice synthesis with melody-unsupervised pre-training

要約

単一話者の歌声合成(SVS)は、通常、歌手の声域から外れたピッチ値や、限られた訓練サンプルに関連するピッチ値では性能が低下する。本研究では、これまでの研究に基づき、音色の類似性を劣化させることなく、単一話者の声域を向上させるために、複数話者のデータセット上で行われるメロディ教師なし複数話者事前学習法を提案する。この事前学習法は、音素のタイミング情報やピッチ注釈を持たない音声と歌詞のペアのみを含む大規模な複数話者のデータセットに展開することができる。具体的には、事前学習ステップでは、音素タイミング情報としてフレームレベルの音素確率ベクトルを生成する音素予測器と、異なる歌手の音色の変化をモデル化する話者エンコーダを設計し、ピッチ情報を提供するために音声からフレームレベルのf0値を直接推定する。これらの事前に訓練されたモデルパラメータは、単一話者の声域を拡張するための事前知識として微調整ステップに送られる。さらに、この研究は、合成された歌声の音質とリズムの自然さの向上にも貢献する。合成歌声のリズムの自然さを改善するために微分可能なデュレーション調整器を導入し、音質を改善するために双方向フローモデルを導入したのは本研究が初めてである。実験の結果、提案したSVSシステムは音質と自然性の両方においてベースラインを上回ることが確認された。

要約(オリジナル)

The single-speaker singing voice synthesis (SVS) usually underperforms at pitch values that are out of the singer’s vocal range or associated with limited training samples. Based on our previous work, this work proposes a melody-unsupervised multi-speaker pre-training method conducted on a multi-singer dataset to enhance the vocal range of the single-speaker, while not degrading the timbre similarity. This pre-training method can be deployed to a large-scale multi-singer dataset, which only contains audio-and-lyrics pairs without phonemic timing information and pitch annotation. Specifically, in the pre-training step, we design a phoneme predictor to produce the frame-level phoneme probability vectors as the phonemic timing information and a speaker encoder to model the timbre variations of different singers, and directly estimate the frame-level f0 values from the audio to provide the pitch information. These pre-trained model parameters are delivered into the fine-tuning step as prior knowledge to enhance the single speaker’s vocal range. Moreover, this work also contributes to improving the sound quality and rhythm naturalness of the synthesized singing voices. It is the first to introduce a differentiable duration regulator to improve the rhythm naturalness of the synthesized voice, and a bi-directional flow model to improve the sound quality. Experimental results verify that the proposed SVS system outperforms the baseline on both sound quality and naturalness.

arxiv情報

著者 Shaohuan Zhou,Xu Li,Zhiyong Wu,Ying Shan,Helen Meng
発行日 2023-09-01 06:40:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク