Speaker Emotion Recognition: Leveraging Self-Supervised Models for Feature Extraction Using Wav2Vec2 and HuBERT

要約

スピーチは、人間として自分自身を表現する最も自然な方法です。
感情自体の定義があいまいなため、音声から感情を識別することは簡単な作業ではありません。
話者感情認識 (SER) は、人間の感情的な行動を理解するために不可欠です。
SER のタスクは、話者の種類、背景雑音、感情の複雑さ、話し方の多様性により、困難を伴います。
教育、ヘルスケア、顧客サービス、ヒューマン コンピューター インタラクション (HCI) に多くの用途があります。
これまで、SER タスクには、SVM、HMM、KNN などの従来の機械学習手法が使用されてきました。
近年、深層学習手法が普及しており、畳み込みニューラル ネットワークやリカレント ニューラル ネットワークが SER タスクに使用されています。
これらのメソッドの入力は、主にスペクトログラムと手作りの特徴です。
この研究では、自己教師あり変圧器ベースのモデルである Wav2Vec2 と HuBERT を使用して、話者の声から話者の感情を判断する方法を研究します。
モデルは生のオーディオ信号から特徴を自動的に抽出し、分類タスクに使用します。
提案されたソリューションは、RAVDESS、SHEMO、SAVEE、AESDD、Emo-DB などの信頼できるデータセットで評価されます。
結果は、さまざまなデータセットに対する提案された方法の有効性を示しています。
さらに、このモデルはコールセンターでの会話などの実世界のアプリケーションにも使用されており、その結果はモデルが感情を正確に予測することを示しています。

要約(オリジナル)

Speech is the most natural way of expressing ourselves as humans. Identifying emotion from speech is a nontrivial task due to the ambiguous definition of emotion itself. Speaker Emotion Recognition (SER) is essential for understanding human emotional behavior. The SER task is challenging due to the variety of speakers, background noise, complexity of emotions, and speaking styles. It has many applications in education, healthcare, customer service, and Human-Computer Interaction (HCI). Previously, conventional machine learning methods such as SVM, HMM, and KNN have been used for the SER task. In recent years, deep learning methods have become popular, with convolutional neural networks and recurrent neural networks being used for SER tasks. The input of these methods is mostly spectrograms and hand-crafted features. In this work, we study the use of self-supervised transformer-based models, Wav2Vec2 and HuBERT, to determine the emotion of speakers from their voice. The models automatically extract features from raw audio signals, which are then used for the classification task. The proposed solution is evaluated on reputable datasets, including RAVDESS, SHEMO, SAVEE, AESDD, and Emo-DB. The results show the effectiveness of the proposed method on different datasets. Moreover, the model has been used for real-world applications like call center conversations, and the results demonstrate that the model accurately predicts emotions.

arxiv情報

著者 Pourya Jafarzadeh,Amir Mohammad Rostami,Padideh Choobdar
発行日 2024-11-06 14:18:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS パーマリンク