要約
効果的な音声感情表現は、音声感情認識 (SER) および感情的テキスト読み上げ (TTS) タスクにおいて重要な役割を果たします。
ただし、感情的な音声サンプルは、中立スタイルの音声に比べて取得が難しく、高価であるため、ほとんどの関連研究が残念ながら無視している問題が発生します。それは、不均衡なデータセットです。
モデルは大多数の中立クラスに過剰適合し、堅牢で効果的な感情表現を生成できない可能性があります。
この論文では、この問題に対処するための感情抽出ツールを提案します。
私たちは拡張アプローチを使用してモデルをトレーニングし、不均衡なデータセットから効果的で一般化可能な感情表現を抽出できるようにします。
私たちの経験的結果は、(1) SER タスクに関して、提案された感情抽出ツールが 3 つの不均衡なデータセットの最先端のベースラインを上回っていることを示しています。
(2) Emotion Extractor から生成された表現は TTS モデルに利益をもたらし、より表現力豊かな音声を合成できるようになります。
要約(オリジナル)
Effective speech emotional representations play a key role in Speech Emotion Recognition (SER) and Emotional Text-To-Speech (TTS) tasks. However, emotional speech samples are more difficult and expensive to acquire compared with Neutral style speech, which causes one issue that most related works unfortunately neglect: imbalanced datasets. Models might overfit to the majority Neutral class and fail to produce robust and effective emotional representations. In this paper, we propose an Emotion Extractor to address this issue. We use augmentation approaches to train the model and enable it to extract effective and generalizable emotional representations from imbalanced datasets. Our empirical results show that (1) for the SER task, the proposed Emotion Extractor surpasses the state-of-the-art baseline on three imbalanced datasets; (2) the produced representations from our Emotion Extractor benefit the TTS model, and enable it to synthesize more expressive speech.
arxiv情報
著者 | Shijun Wang,Jón Guðnason,Damian Borth |
発行日 | 2023-06-09 07:04:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google