Emotional Expression Detection in Spoken Language Employing Machine Learning Algorithms


– 機械学習アルゴリズムを用いた話された言語における感情的表現検出

– 人間の声には、ピッチ、音色、音量、声質など、様々な特徴がある。
– 人は話すときにさまざまな声の質で感情を表現することがあり、本研究の主な目的は、スペクトルディスクリプタ、周期性、調和性などの複数のMATLAB関数を使用して、怒り、悲しみ、恐怖、中立、嫌悪、驚き、幸福など、人間の異なる感情を認識することである。
– CREMA-D(Crowd-sourced Emotional Multimodal Actors Data)&TESS(Toronto Emotional Speech Set)データセットの人間の話し声を分析することにより、この目標を達成するために、さまざまな特徴を備えたオーディオファイルを使用することができる。
– 信号分解のために Empirical Model Decomposition (EMD) を使用し、MFCC、GTCC、スペクトル重心、ロールオフポイント、エントロピー、スプレッド、フラックス、調和比、エネルギー、歪度、フラットネス、オーディオデルタなどの数多くのテクニックを使用して特徴を抽出する。
– 有名な機械学習モデルであるSupport Vector Machine、Neural Network、Ensemble、KNNを使用してデータをトレーニングし、テストデータに対してそれぞれ67.7%、63.3%、61.6%、59.0%の精度を示し、トレーニングデータに対してはそれぞれ77.7%、76.1%、99.1%、61.2%の精度が示された。
– 本研究ではMATLABを使用して実験を行った結果、既存の類似した研究よりも優れた柔軟性を持つモデルが得られることが明らかになった。


There are a variety of features of the human voice that can be classified as pitch, timbre, loudness, and vocal tone. It is observed in numerous incidents that human expresses their feelings using different vocal qualities when they are speaking. The primary objective of this research is to recognize different emotions of human beings such as anger, sadness, fear, neutrality, disgust, pleasant surprise, and happiness by using several MATLAB functions namely, spectral descriptors, periodicity, and harmonicity. To accomplish the work, we analyze the CREMA-D (Crowd-sourced Emotional Multimodal Actors Data) & TESS (Toronto Emotional Speech Set) datasets of human speech. The audio file contains data that have various characteristics (e.g., noisy, speedy, slow) thereby the efficiency of the ML (Machine Learning) models increases significantly. The EMD (Empirical Mode Decomposition) is utilized for the process of signal decomposition. Then, the features are extracted through the use of several techniques such as the MFCC, GTCC, spectral centroid, roll-off point, entropy, spread, flux, harmonic ratio, energy, skewness, flatness, and audio delta. The data is trained using some renowned ML models namely, Support Vector Machine, Neural Network, Ensemble, and KNN. The algorithms show an accuracy of 67.7%, 63.3%, 61.6%, and 59.0% respectively for the test data and 77.7%, 76.1%, 99.1%, and 61.2% for the training data. We have conducted experiments using Matlab and the result shows that our model is very prominent and flexible than existing similar works.


著者 Mehrab Hosain,Most. Yeasmin Arafat,Gazi Zahirul Islam,Jia Uddin,Md. Mobarak Hossain,Fatema Alam
発行日 2023-04-20 17:57:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク