要約
この論文では、音声感情認識 (SER) 用のマルチソース データセットである SER_AMPEL について説明します。
このデータセットの特徴は、イタリアの高齢者の音声感情認識の参考資料を提供する目的で収集されたことです。
データセットはさまざまなプロトコルに従って収集され、特に映画やテレビシリーズから抽出された演技された会話、および適切な質問によって感情が引き出された自然な会話の記録を考慮しています。
このようなデータセットの必要性の証拠は、最先端技術の分析から明らかになります。
SER の重要な問題に関する予備的な考慮事項が、提案されたデータセットのサブセットの分類結果を分析して報告されます。
要約(オリジナル)
In this paper, SER_AMPEL, a multi-source dataset for speech emotion recognition (SER) is presented. The peculiarity of the dataset is that it is collected with the aim of providing a reference for speech emotion recognition in case of Italian older adults. The dataset is collected following different protocols, in particular considering acted conversations, extracted from movies and TV series, and recording natural conversations where the emotions are elicited by proper questions. The evidence of the need for such a dataset emerges from the analysis of the state of the art. Preliminary considerations on the critical issues of SER are reported analyzing the classification results on a subset of the proposed dataset.
arxiv情報
著者 | Alessandra Grossi,Francesca Gasparini |
発行日 | 2023-11-24 13:47:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google