Interpretable Multimodal Emotion Recognition using Hybrid Fusion of Speech and Image Data

要約

本稿では、音声発話と対応する画像によって表される感情を離散クラスに分類するハイブリッド融合に基づくマルチモーダル感情認識システムを提案します。
特定の感情クラスの予測につながる重要な音声と画像の特徴を識別するために、新しい解釈可能性手法が開発されました。
提案されたシステムのアーキテクチャは、集中的なアブレーション研究を通じて決定されています。
音声と画像の特徴を融合し、音声、画像、および中間の融合出力を結合します。
提案された解釈可能性手法は、各音声と画像の特徴の重要性を示す適切な値を計算するために、分割と征服のアプローチを取り入れています。
また、音声発話、対応する画像、クラス ラベル (「怒り」、「幸せ」、「嫌い」、「悲しい」) からなる大規模なデータセット (IIT-R SIER データセット) を構築しました。
提案されたシステムは、感情認識で 83.29% の精度を達成しました。
提案されたシステムの強化されたパフォーマンスは、感情認識のために複数のモダリティからの補完的な情報を利用することの重要性を提唱しています。

要約(オリジナル)

This paper proposes a multimodal emotion recognition system based on hybrid fusion that classifies the emotions depicted by speech utterances and corresponding images into discrete classes. A new interpretability technique has been developed to identify the important speech & image features leading to the prediction of particular emotion classes. The proposed system’s architecture has been determined through intensive ablation studies. It fuses the speech & image features and then combines speech, image, and intermediate fusion outputs. The proposed interpretability technique incorporates the divide & conquer approach to compute shapely values denoting each speech & image feature’s importance. We have also constructed a large-scale dataset (IIT-R SIER dataset), consisting of speech utterances, corresponding images, and class labels, i.e., ‘anger,’ ‘happy,’ ‘hate,’ and ‘sad.’ The proposed system has achieved 83.29% accuracy for emotion recognition. The enhanced performance of the proposed system advocates the importance of utilizing complementary information from multiple modalities for emotion recognition.

arxiv情報

著者 Puneet Kumar,Sarthak Malik,Balasubramanian Raman
発行日 2022-08-25 04:43:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS パーマリンク