Speech Emotion Diarization: Which Emotion Appears When?

要約

音声感情認識 (SER) は通常、発話レベルのソリューションに依存します。
ただし、音声を通じて伝達される感情は、発話全体の属性ではなく、明確な時間的境界を持つ個別の音声イベントとして考慮される必要があります。
音声感情のきめ細かい性質を反映するために、音声感情ダイアライゼーション (SED) という新しいタスクを提案します。
話者ダイアライゼーションが「誰がいつ話すか?」という質問に答えるのと同様に、スピーチ感情ダイアライゼーションは「どの感情がいつ現れるか?」という質問に答えます。
パフォーマンスの評価を容易にし、研究者向けの共通ベンチマークを確立するために、Zaion Emotion Dataset (ZED) を導入します。これは、手動で注釈が付けられた境界とともに、現実の状況で記録された行為されていない感情を含む、オープンにアクセスできる音声感情データセットです。
発話内の感情セグメントの数。
当社は競争力のあるベースラインを提供し、コードと事前トレーニングされたモデルをオープンソース化します。

要約(オリジナル)

Speech Emotion Recognition (SER) typically relies on utterance-level solutions. However, emotions conveyed through speech should be considered as discrete speech events with definite temporal boundaries, rather than attributes of the entire utterance. To reflect the fine-grained nature of speech emotions, we propose a new task: Speech Emotion Diarization (SED). Just as Speaker Diarization answers the question of ‘Who speaks when?’, Speech Emotion Diarization answers the question of ‘Which emotion appears when?’. To facilitate the evaluation of the performance and establish a common benchmark for researchers, we introduce the Zaion Emotion Dataset (ZED), an openly accessible speech emotion dataset that includes non-acted emotions recorded in real-life conditions, along with manually-annotated boundaries of emotion segments within the utterance. We provide competitive baselines and open-source the code and the pre-trained models.

arxiv情報

著者 Yingzhi Wang,Mirco Ravanelli,Alaa Nfissi,Alya Yacoubi
発行日 2023-06-22 15:47:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク