EmoNet-Voice: A Fine-Grained, Expert-Verified Benchmark for Speech Emotion Detection

要約

テキストからスピーチとオーディオ生成モデルの進歩には、AIシステムの感情的理解能力を評価するための堅牢なベンチマークが必要です。
現在の音声感情認識(SER)データセットは、多くの場合、感情的な粒度、プライバシーの懸念、または行動された描写に依存して制限を示します。
このペーパーでは、音声感情検出のための新しいリソースであるEmonet-Voice Big、大規模なトレーニング前データセット(11の声、40の感情、4つの言語にわたって4,500時間以上の音声を特徴)を含むEmonet-Voiceを紹介します。
Emonet-Voiceは、さまざまなレベルの強度を持つ40の感情カテゴリの微細なスペクトルでSERモデルを評価するように設計されています。
最先端の音声生成を活用して、特定の感情を呼び起こすように設計されたシーンを描いた俳優をシミュレートする合成オーディオスニペットをキュレーションしました。
重要なことに、知覚された強度ラベルを割り当てた心理学の専門家による厳密な検証を実施しました。
この合成的でプライバシーを摂取するアプローチにより、既存のデータセットにはしばしば敏感な感情状態が存在しないことがあります。
最後に、人間の専門家と高い一致を伴う音声感情認識の新しい基準を設定する共感的洞察音声モデルを紹介します。
現在のモデルの景観全体の評価は、集中力のような低覚醒状態よりも怒りのような高覚醒感などの貴重な感情など、貴重な発見を示しています。

要約(オリジナル)

The advancement of text-to-speech and audio generation models necessitates robust benchmarks for evaluating the emotional understanding capabilities of AI systems. Current speech emotion recognition (SER) datasets often exhibit limitations in emotional granularity, privacy concerns, or reliance on acted portrayals. This paper introduces EmoNet-Voice, a new resource for speech emotion detection, which includes EmoNet-Voice Big, a large-scale pre-training dataset (featuring over 4,500 hours of speech across 11 voices, 40 emotions, and 4 languages), and EmoNet-Voice Bench, a novel benchmark dataset with human expert annotations. EmoNet-Voice is designed to evaluate SER models on a fine-grained spectrum of 40 emotion categories with different levels of intensities. Leveraging state-of-the-art voice generation, we curated synthetic audio snippets simulating actors portraying scenes designed to evoke specific emotions. Crucially, we conducted rigorous validation by psychology experts who assigned perceived intensity labels. This synthetic, privacy-preserving approach allows for the inclusion of sensitive emotional states often absent in existing datasets. Lastly, we introduce Empathic Insight Voice models that set a new standard in speech emotion recognition with high agreement with human experts. Our evaluations across the current model landscape exhibit valuable findings, such as high-arousal emotions like anger being much easier to detect than low-arousal states like concentration.

arxiv情報

著者 Christoph Schuhmann,Robert Kaczmarczyk,Gollam Rabby,Felix Friedrich,Maurice Kraus,Kourosh Nadi,Huu Nguyen,Kristian Kersting,Sören Auer
発行日 2025-06-11 15:06:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク