nEMO: Dataset of Emotional Speech in Polish

要約

音声感情認識は、ヘルスケア、顧客サービス、対話システムのパーソナライゼーションに応用できる可能性があるため、近年ますます重要になっています。
ただし、この分野の大きな問題は、さまざまな言語族にわたる基本的な感情状態を適切に表すデータセットが不足していることです。
スラブ言語をカバーするデータセットは稀であるため、この研究ギャップに対処する必要があります。
この論文では、ポーランド語の感情的な音声の新しいコーパスである nEMO の開発について説明します。
このデータセットは、怒り、恐怖、幸福、悲しみ、驚き、中立状態の 6 つの感情状態を表現する 9 人の俳優の参加により記録された 3 時間以上のサンプルで構成されています。
使用されるテキスト素材は、ポーランド語の音声を適切に表現できるように慎重に選択されました。
このコーパスは、クリエイティブ コモンズ ライセンス (CC BY-NC-SA 4.0) の条件に基づいて自由に利用できます。

要約(オリジナル)

Speech emotion recognition has become increasingly important in recent years due to its potential applications in healthcare, customer service, and personalization of dialogue systems. However, a major issue in this field is the lack of datasets that adequately represent basic emotional states across various language families. As datasets covering Slavic languages are rare, there is a need to address this research gap. This paper presents the development of nEMO, a novel corpus of emotional speech in Polish. The dataset comprises over 3 hours of samples recorded with the participation of nine actors portraying six emotional states: anger, fear, happiness, sadness, surprise, and a neutral state. The text material used was carefully selected to represent the phonetics of the Polish language adequately. The corpus is freely available under the terms of a Creative Commons license (CC BY-NC-SA 4.0).

arxiv情報

著者 Iwona Christop
発行日 2024-04-09 13:18:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク