Designing and Evaluating Speech Emotion Recognition Systems: A reality check case study with IEMOCAP

要約

【タイトル】IEMOCAPを用いた発話感情認識システムの設計と評価:現実的な事例研究

【要約】
– 発話感情認識(SER)の直接的で公正な比較を実現するために、ガイドラインや標準テストセットの必要性がある。
– IEMOCAPデータベースなどのリソースは、SERのモデルの開発やテストのために広く使用されており、大量のリファレンスコーパスがある。
– 公表された研究には、再現性や一般化に挑戦する、多様な仮定や使われる指標がある。
– IEMOCAPを使用したSERの最新の研究の批評的レビューに基づいて、SER評価ガイドラインの提供と、再現性の評価に焦点を当てた研究。
– オープンソースの実装が公開された最近の出版物を使用して、SERの再現性評価に焦点が当てられています。

要約(オリジナル)

There is an imminent need for guidelines and standard test sets to allow direct and fair comparisons of speech emotion recognition (SER). While resources, such as the Interactive Emotional Dyadic Motion Capture (IEMOCAP) database, have emerged as widely-adopted reference corpora for researchers to develop and test models for SER, published work reveals a wide range of assumptions and variety in its use that challenge reproducibility and generalization. Based on a critical review of the latest advances in SER using IEMOCAP as the use case, our work aims at two contributions: First, using an analysis of the recent literature, including assumptions made and metrics used therein, we provide a set of SER evaluation guidelines. Second, using recent publications with open-sourced implementations, we focus on reproducibility assessment in SER.

arxiv情報

著者 Nikolaos Antoniou,Athanasios Katsamanis,Theodoros Giannakopoulos,Shrikanth Narayanan
発行日 2023-04-03 10:16:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク