Daisy-TTS: Simulating Wider Spectrum of Emotions via Prosody Embedding Decomposition

要約

私たちは感情を多面的に言葉で表現することがよくありますが、感情の強さはさまざまで、単一の感情だけでなく、混合した感情として表現されることもあります。
この幅広い感情は、感情の構造モデルでよく研究されており、さまざまな感情をさまざまな強度の主感情から派生したものとして表します。
この論文では、構造モデルに基づいて、より広範囲の感情をシミュレートするための感情的なテキスト読み上げデザインを提案します。
私たちが提案する設計である Daisy-TTS には、感情の代理として感情的に分離可能な韻律埋め込みを学習するための韻律エンコーダーが組み込まれています。
この感情表現により、モデルは以下をシミュレートできます: (1) トレーニング サンプルから学習した一次感情、(2) 一次感情の混合としての二次感情、(3) 感情の埋め込みをスケーリングすることによる強度レベル、および (
4) 埋め込まれた感情を否定することによる感情の極性。
一連の知覚評価を通じて、Daisy-TTS は、ベースラインと比較して全体的に感情的な発話の自然さと感情の知覚可能性が高いことを実証しました。

要約(オリジナル)

We often verbally express emotions in a multifaceted manner, they may vary in their intensities and may be expressed not just as a single but as a mixture of emotions. This wide spectrum of emotions is well-studied in the structural model of emotions, which represents variety of emotions as derivative products of primary emotions with varying degrees of intensity. In this paper, we propose an emotional text-to-speech design to simulate a wider spectrum of emotions grounded on the structural model. Our proposed design, Daisy-TTS, incorporates a prosody encoder to learn emotionally-separable prosody embedding as a proxy for emotion. This emotion representation allows the model to simulate: (1) Primary emotions, as learned from the training samples, (2) Secondary emotions, as a mixture of primary emotions, (3) Intensity-level, by scaling the emotion embedding, and (4) Emotions polarity, by negating the emotion embedding. Through a series of perceptual evaluations, Daisy-TTS demonstrated overall higher emotional speech naturalness and emotion perceiveability compared to the baseline.

arxiv情報

著者 Rendi Chevi,Alham Fikri Aji
発行日 2024-06-27 15:14:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク