要約
音声感情認識は、音声処理分野における困難なタスクです。
このため、特徴抽出プロセスは音声信号を実証および処理する上で非常に重要です。
この作業では、6 つの異なるデータセット (EMO-DB、RAVDESS、TESS、CREMA、SAVEE、および TESS) を利用して感情を認識するための特徴抽出段階を行わずに、生のオーディオ ファイルをディープ ニューラル ネットワークに直接フィードするモデルを表します。
+ラヴデス。
提案されたモデルの貢献を実証するために、従来の特徴抽出手法、つまりメルスケール スペクトグラム、メル周波数ケプストラム係数のパフォーマンスが、機械学習アルゴリズム、アンサンブル学習手法、ディープおよびハイブリッド ディープ ラーニング手法とブレンドされています。
サポート ベクター マシン、デシジョン ツリー、ナイーブ ベイズ、ランダム フォレスト モデルは機械学習アルゴリズムとして評価され、多数決およびスタッキング手法はアンサンブル学習手法として評価されます。
さらに、畳み込みニューラル ネットワーク、長短期記憶ネットワーク、およびハイブリッド CNN-LSTM モデルが深層学習手法として評価され、機械学習およびアンサンブル学習手法と比較されます。
提案されたモデルの有効性を実証するために、最先端の研究との比較が実行されます。
実験結果に基づくと、CNN モデルは、生のオーディオ ファイルを使用した TESS+RAVDESS データ セットの精度が 95.86% で、既存のアプローチを上回っており、新しい最先端技術であると判断されます。
提案されたモデルは、CNN モデルを使用した EMO-DB の精度が 90.34%、CNN モデルを使用した RAVDESS の精度が 90.42%、LSTM モデルを使用した TESS の精度が 99.48%、CNN モデルを使用した CREMA の精度が 69.72%、精度が 85.76% を実行します。
話者に依存しないオーディオ分類問題における CNN モデルを使用した SAVEE の場合。
要約(オリジナル)
Speech emotion recognition is a challenging task in speech processing field. For this reason, feature extraction process has a crucial importance to demonstrate and process the speech signals. In this work, we represent a model, which feeds raw audio files directly into the deep neural networks without any feature extraction stage for the recognition of emotions utilizing six different data sets, EMO-DB, RAVDESS, TESS, CREMA, SAVEE, and TESS+RAVDESS. To demonstrate the contribution of proposed model, the performance of traditional feature extraction techniques namely, mel-scale spectogram, mel-frequency cepstral coefficients, are blended with machine learning algorithms, ensemble learning methods, deep and hybrid deep learning techniques. Support vector machine, decision tree, naive Bayes, random forests models are evaluated as machine learning algorithms while majority voting and stacking methods are assessed as ensemble learning techniques. Moreover, convolutional neural networks, long short-term memory networks, and hybrid CNN- LSTM model are evaluated as deep learning techniques and compared with machine learning and ensemble learning methods. To demonstrate the effectiveness of proposed model, the comparison with state-of-the-art studies are carried out. Based on the experiment results, CNN model excels existent approaches with 95.86% of accuracy for TESS+RAVDESS data set using raw audio files, thence determining the new state-of-the-art. The proposed model performs 90.34% of accuracy for EMO-DB with CNN model, 90.42% of accuracy for RAVDESS with CNN model, 99.48% of accuracy for TESS with LSTM model, 69.72% of accuracy for CREMA with CNN model, 85.76% of accuracy for SAVEE with CNN model in speaker-independent audio categorization problems.
arxiv情報
| 著者 | Zeynep Hilal Kilimci,Ulku Bayraktar,Ayhan Kucukmanisa |
| 発行日 | 2023-07-06 07:27:59+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google