要約
音声感情認識は、ヘルスケア、顧客サービス、対話システムのパーソナライゼーションに応用できる可能性があるため、近年ますます重要になっています。
ただし、この分野の大きな問題は、さまざまな言語族にわたる基本的な感情状態を適切に表すデータセットが不足していることです。
スラブ言語をカバーするデータセットは稀であるため、この研究ギャップに対処する必要があります。
この論文では、ポーランド語の感情的な音声の新しいコーパスである nEMO の開発について説明します。
このデータセットは、怒り、恐怖、幸福、悲しみ、驚き、中立状態の 6 つの感情状態を表現する 9 人の俳優の参加により記録された 3 時間以上のサンプルで構成されています。
使用されるテキスト素材は、ポーランド語の音声を適切に表現できるように慎重に選択されました。
このコーパスは、クリエイティブ コモンズ ライセンス (CC BY-NC-SA 4.0) の条件に基づいて自由に利用できます。
要約(オリジナル)
Speech emotion recognition has become increasingly important in recent years due to its potential applications in healthcare, customer service, and personalization of dialogue systems. However, a major issue in this field is the lack of datasets that adequately represent basic emotional states across various language families. As datasets covering Slavic languages are rare, there is a need to address this research gap. This paper presents the development of nEMO, a novel corpus of emotional speech in Polish. The dataset comprises over 3 hours of samples recorded with the participation of nine actors portraying six emotional states: anger, fear, happiness, sadness, surprise, and a neutral state. The text material used was carefully selected to represent the phonetics of the Polish language adequately. The corpus is freely available under the terms of a Creative Commons license (CC BY-NC-SA 4.0).
arxiv情報
著者 | Iwona Christop |
発行日 | 2024-04-09 13:18:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google