要約
Emotional Voice Messages (EMOVOME) は、スペイン語話者 100 人による、メッセージング アプリでの実際の会話から男女バランスをとった 999 個の音声メッセージを含む自発音声データセットです。
音声メッセージは、実験室環境による意識的な偏見を回避するため、参加者が募集される前に自然環境で生成されました。
オーディオは、非専門家 3 名と専門家 2 名によって価性と覚醒の次元でラベル付けされ、それらを組み合わせて次元ごとの最終的なラベルが得られました。
専門家は、7 つの感情カテゴリに対応する追加のラベルも提供しました。
EMOVOME を使用した今後の調査のベースラインを設定するために、音声と音声の転写の両方を使用して感情認識モデルを実装しました。
音声については、標準の eGeMAPS 機能セットとサポート ベクター マシンを使用し、価性と覚醒についてそれぞれ 49.27% と 44.71% の重み付けなしの精度を取得しました。
テキストについては、多言語 BERT モデルを微調整し、価性と覚醒についてそれぞれ 61.15% と 47.43% の重み付けなしの精度を達成しました。
このデータベースは、野生における感情認識の研究に大きく貢献すると同時に、スペイン語に自由にアクセスできるユニークな自然なリソースを提供します。
要約(オリジナル)
Emotional Voice Messages (EMOVOME) is a spontaneous speech dataset containing 999 audio messages from real conversations on a messaging app from 100 Spanish speakers, gender balanced. Voice messages were produced in-the-wild conditions before participants were recruited, avoiding any conscious bias due to laboratory environment. Audios were labeled in valence and arousal dimensions by three non-experts and two experts, which were then combined to obtain a final label per dimension. The experts also provided an extra label corresponding to seven emotion categories. To set a baseline for future investigations using EMOVOME, we implemented emotion recognition models using both speech and audio transcriptions. For speech, we used the standard eGeMAPS feature set and support vector machines, obtaining 49.27% and 44.71% unweighted accuracy for valence and arousal respectively. For text, we fine-tuned a multilingual BERT model and achieved 61.15% and 47.43% unweighted accuracy for valence and arousal respectively. This database will significantly contribute to research on emotion recognition in the wild, while also providing a unique natural and freely accessible resource for Spanish.
arxiv情報
著者 | Lucía Gómez Zaragozá,Rocío del Amor,Elena Parra Vargas,Valery Naranjo,Mariano Alcañiz Raya,Javier Marín-Morales |
発行日 | 2024-02-27 13:22:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google