Cross-speaker Emotion Transfer by Manipulating Speech Style Latents

要約

近年、感情的なテキスト読み上げはかなりの進歩を遂げています。
ただし、大量のラベル付きデータが必要であり、簡単にはアクセスできません。
感情音声データセットを取得できたとしても、感情の強さを制御するには限界があります。
この作業では、潜在的なスタイル空間でベクトル演算を使用して、話者間の感情伝達と操作のための新しい方法を提案します。
少数のラベル付きサンプルのみを活用することで、話者のアイデンティティを失うことなく、朗読スタイルのスピーチから感情的なスピーチを生成します。
さらに、感情の強さはスカラー値を使用して簡単に制御できるため、ユーザーは音声を直感的に操作できます。
実験結果は、提案された方法が表現力、自然さ、および制御可能性の点で優れたパフォーマンスを提供し、話者のアイデンティティを維持することを示しています。

要約(オリジナル)

In recent years, emotional text-to-speech has shown considerable progress. However, it requires a large amount of labeled data, which is not easily accessible. Even if it is possible to acquire an emotional speech dataset, there is still a limitation in controlling emotion intensity. In this work, we propose a novel method for cross-speaker emotion transfer and manipulation using vector arithmetic in latent style space. By leveraging only a few labeled samples, we generate emotional speech from reading-style speech without losing the speaker identity. Furthermore, emotion strength is readily controllable using a scalar value, providing an intuitive way for users to manipulate speech. Experimental results show the proposed method affords superior performance in terms of expressiveness, naturalness, and controllability, preserving speaker identity.

arxiv情報

著者 Suhee Jo,Younggun Lee,Yookyung Shin,Yeongtae Hwang,Taesu Kim
発行日 2023-03-15 02:34:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク