要約
高度な人工知能と人間とコンピューターの対話の時代では、話し言葉で感情を識別することが最も重要です。
この研究では、音声感情認識における深層学習技術の統合を検討し、話者のダイアリゼーションと感情の識別に関連する課題に対する包括的なソリューションを提供します。
既存の話者ダイアライゼーション パイプラインと畳み込みニューラル ネットワーク (CNN) 上に構築された感情識別モデルを組み合わせて、より高い精度を実現するフレームワークが導入されています。
提案されたモデルは、RAVDESS、CREMA-D、SAVEE、TESS、Movie Clips の 5 つの音声感情データセットのデータでトレーニングされました。そのうち後者は、この研究のために特別に作成された音声感情データセットです。
各サンプルから抽出された特徴には、メル周波数ケプストラル係数 (MFCC)、ゼロクロッシング レート (ZCR)、二乗平均平方根 (RMS)、およびピッチ、ノイズ、ストレッチ、シフトなどのさまざまなデータ拡張アルゴリズムが含まれます。
この特徴抽出アプローチは、計算の複雑さを軽減しながら予測精度を向上させることを目的としています。
提案されたモデルは、重み付けされていない精度が 63% であり、音声信号内の感情状態を正確に識別する際の顕著な効率を示しています。
要約(オリジナル)
In the era of advanced artificial intelligence and human-computer interaction, identifying emotions in spoken language is paramount. This research explores the integration of deep learning techniques in speech emotion recognition, offering a comprehensive solution to the challenges associated with speaker diarization and emotion identification. It introduces a framework that combines a pre-existing speaker diarization pipeline and an emotion identification model built on a Convolutional Neural Network (CNN) to achieve higher precision. The proposed model was trained on data from five speech emotion datasets, namely, RAVDESS, CREMA-D, SAVEE, TESS, and Movie Clips, out of which the latter is a speech emotion dataset created specifically for this research. The features extracted from each sample include Mel Frequency Cepstral Coefficients (MFCC), Zero Crossing Rate (ZCR), Root Mean Square (RMS), and various data augmentation algorithms like pitch, noise, stretch, and shift. This feature extraction approach aims to enhance prediction accuracy while reducing computational complexity. The proposed model yields an unweighted accuracy of 63%, demonstrating remarkable efficiency in accurately identifying emotional states within speech signals.
arxiv情報
著者 | Hanan Hamza,Fiza Gafoor,Fathima Sithara,Gayathri Anil,V. S. Anoop |
発行日 | 2023-10-19 16:02:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google