EmoSpeech: A Corpus of Emotionally Rich and Contextually Detailed Speech Annotations

要約

テキスト読み上げ (TTS) テクノロジーの進歩により、生成される音声の品質が大幅に向上し、ターゲット話者の音色やイントネーションに厳密に一致します。
しかし、人間の感情表現は本質的に複雑であるため、微妙な感情の違いを制御できる TTS システムの開発は依然として困難な課題です。
既存の感情音声データベースは、広範な感情状態を捉えることができない単純すぎるラベル付けスキームに悩まされることが多く、そのため、TTS アプリケーションでの感情合成の有効性が制限されます。
この目的を達成するために、最近の取り組みは、自然言語の注釈を使用して音声の感情を記述するデータベースの構築に焦点を当てています。
ただし、これらのアプローチはコストがかかり、堅牢なシステムをトレーニングするにはより感情的な深みが必要です。
この論文では、感情豊かな音声セグメントを体系的に抽出し、生成モデルを通じて詳細な自然言語記述でそれらに注釈を付けることにより、データベースを構築することを目的とした新しいプロセスを提案します。
このアプローチでは、高レベル言語モデルを使用してデータを自動的に強化することで、データベースの感情的な粒度が強化され、コストのかかる手動の注釈への依存が大幅に軽減されます。
結果として得られる豊富なデータベースは、感情的に制御される TTS システムを開発するための、より微妙で動的な基盤を開発するための、スケーラブルで経済的に実行可能なソリューションを提供します。

要約(オリジナル)

Advances in text-to-speech (TTS) technology have significantly improved the quality of generated speech, closely matching the timbre and intonation of the target speaker. However, due to the inherent complexity of human emotional expression, the development of TTS systems capable of controlling subtle emotional differences remains a formidable challenge. Existing emotional speech databases often suffer from overly simplistic labelling schemes that fail to capture a wide range of emotional states, thus limiting the effectiveness of emotion synthesis in TTS applications. To this end, recent efforts have focussed on building databases that use natural language annotations to describe speech emotions. However, these approaches are costly and require more emotional depth to train robust systems. In this paper, we propose a novel process aimed at building databases by systematically extracting emotion-rich speech segments and annotating them with detailed natural language descriptions through a generative model. This approach enhances the emotional granularity of the database and significantly reduces the reliance on costly manual annotations by automatically augmenting the data with high-level language models. The resulting rich database provides a scalable and economically viable solution for developing a more nuanced and dynamic basis for developing emotionally controlled TTS systems.

arxiv情報

著者 Weizhen Bian,Yubo Zhou,Kaitai Zhang,Xiaohan Gu
発行日 2024-12-12 05:14:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク