A Comparison of Time-based Models for Multimodal Emotion Recognition

要約

感情認識は、人間とコンピューターのインタラクションの分野における重要な研究テーマとなっています。
感情を理解するための音声とビデオに関する研究は、主に表情分析に焦点を当て、6つの基本感情を分類しました。
この研究では、マルチモーダル感情認識におけるさまざまなシーケンス モデルのパフォーマンスが比較されました。
音声と画像はまず多層 CNN モデルによって処理され、これらのモデルの出力がさまざまなシーケンス モデルに供給されました。
シーケンス モデルは、GRU、Transformer、LSTM、および Max Pooling です。
すべてのモデルの精度、精度、および F1 スコア値が計算されました。
実験ではマルチモーダル CREMA-D データセットが使用されました。
CREMA-D データセットの比較の結果、F1 スコアでは 0.640 の GRU ベースのアーキテクチャが最高の結果を示し、精度メトリクスでは 0.699 の LSTM ベースのアーキテクチャが最高の結果を示しましたが、感度では Max Pooling ベースが長期にわたって最高の結果を示しました。
0.620のアーキテクチャ。
その結果、シーケンス モデルが互いに近いパフォーマンスを比較していることが観察されました。

要約(オリジナル)

Emotion recognition has become an important research topic in the field of human-computer interaction. Studies on sound and videos to understand emotions focused mainly on analyzing facial expressions and classified 6 basic emotions. In this study, the performance of different sequence models in multi-modal emotion recognition was compared. The sound and images were first processed by multi-layered CNN models, and the outputs of these models were fed into various sequence models. The sequence model is GRU, Transformer, LSTM and Max Pooling. Accuracy, precision, and F1 Score values of all models were calculated. The multi-modal CREMA-D dataset was used in the experiments. As a result of the comparison of the CREMA-D dataset, GRU-based architecture with 0.640 showed the best result in F1 score, LSTM-based architecture with 0.699 in precision metric, while sensitivity showed the best results over time with Max Pooling-based architecture with 0.620. As a result, it has been observed that the sequence models compare performances close to each other.

arxiv情報

著者 Ege Kesim,Selahattin Serdar Helli,Sena Nur Cavsak
発行日 2023-06-22 17:48:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク