要約
音声合成における話者間スタイル転送は、スタイルをソース スピーカーからターゲット スピーカーの音色の合成音声に転送することを目的としています。
以前のほとんどの方法では、合成されたきめの細かい韻律特徴は、多くの場合、1 対多の問題 (つまり、複数の韻律バリエーションが同じテキストに対応する) と同様に、ソース スピーカーの平均的なスタイルを表します。
この問題に対応して、コンテンツと音色からスタイルを解きほぐし、1 対多のマッピングとデータの不均衡を軽減できるグローバル スタイル埋め込みの表現と解釈可能性を改善するために、強度制御された半教師付きスタイル エクストラクタが提案されています。
韻律予測の問題。
階層的な韻律予測子は、韻律モデリングを改善するために提案されています。
簡単に予測できるソース スピーカーの韻律特徴を使用することで、より良いスタイルの転送を実現できることがわかりました。
さらに、モデルがトレーニング段階で目に見えないスタイルと音色の組み合わせを学習するのを支援するために、スピーカー転送に関するサイクルの一貫性の損失が提案されています。
実験結果は、メソッドがベースラインより優れていることを示しています。
音声サンプル付きのウェブサイトを提供しています。
要約(オリジナル)
Cross-speaker style transfer in speech synthesis aims at transferring a style from source speaker to synthesized speech of a target speaker’s timbre. In most previous methods, the synthesized fine-grained prosody features often represent the source speaker’s average style, similar to the one-to-many problem(i.e., multiple prosody variations correspond to the same text). In response to this problem, a strength-controlled semi-supervised style extractor is proposed to disentangle the style from content and timbre, improving the representation and interpretability of the global style embedding, which can alleviate the one-to-many mapping and data imbalance problems in prosody prediction. A hierarchical prosody predictor is proposed to improve prosody modeling. We find that better style transfer can be achieved by using the source speaker’s prosody features that are easily predicted. Additionally, a speaker-transfer-wise cycle consistency loss is proposed to assist the model in learning unseen style-timbre combinations during the training phase. Experimental results show that the method outperforms the baseline. We provide a website with audio samples.
arxiv情報
著者 | Chunyu Qiang,Peng Yang,Hao Che,Ying Zhang,Xiaorui Wang,Zhongyuan Wang |
発行日 | 2023-03-14 08:52:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google