要約
このペーパーでは、オーディオファイルのMELスペクトログラム表現を介して音声の感情を分類するための畳み込みニューラルネットワークCNNの適用について説明します。
ガウス混合モデルや隠されたマルコフモデルなどの従来の方法では、実用的な展開には不十分であることが証明されており、深い学習技術への移行が促されています。
オーディオデータを視覚形式に変換することにより、CNNモデルは自律的に複雑なパターンを識別し、分類精度を高めることを学びます。
開発されたモデルは、ユーザーフレンドリーなグラフィカルインターフェイスに統合されており、教育環境でのリアルタイム予測と潜在的なアプリケーションを促進します。
この研究の目的は、音声感情認識における深い学習の理解を促進し、モデルの実現可能性を評価し、学習の文脈におけるテクノロジーの統合に貢献することを目指しています。
要約(オリジナル)
This paper explores the application of Convolutional Neural Networks CNNs for classifying emotions in speech through Mel Spectrogram representations of audio files. Traditional methods such as Gaussian Mixture Models and Hidden Markov Models have proven insufficient for practical deployment, prompting a shift towards deep learning techniques. By transforming audio data into a visual format, the CNN model autonomously learns to identify intricate patterns, enhancing classification accuracy. The developed model is integrated into a user-friendly graphical interface, facilitating realtime predictions and potential applications in educational environments. The study aims to advance the understanding of deep learning in speech emotion recognition, assess the models feasibility, and contribute to the integration of technology in learning contexts
arxiv情報
著者 | Niketa Penumajji |
発行日 | 2025-03-25 14:02:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google