Hybrid Fusion Based Interpretable Multimodal Emotion Recognition with Insufficient Labelled Data

要約

この論文では、マルチモーダル感情認識システムである VIsual Spoken Textual Additive Net (VISTA Net) を提案して、画像、音声、およびテキストを含むマルチモーダル入力によって反映される感情を個別のクラスに分類します。
特定の感情クラスの予測につながる重要な視覚、音声、およびテキストの特徴を識別するために、新しい解釈可能性手法である K-Average Additive exPlanation (KAAP) も開発されました。
VISTA ネットは、アーリー フュージョンとレイト フュージョンのハイブリッドを使用して、画像、音声、テキスト モダリティからの情報を融合します。
人間の介入なしで加重平均を計算しながら、中間出力の重みを自動的に調整します。
KAAP 手法は、特定の感情クラスを予測するために、各モダリティと対応する特徴の寄与を計算します。
個別の感情クラスでラベル付けされたマルチモーダル感情データセットの不足を軽減するために、実際の画像、対応する音声とテキスト、および感情ラベル (「怒り」、「幸せ」、
「嫌い」と「悲しい」)。
VISTA Net は、画像、音声、およびテキストのモダリティを考慮して 95.99% の感情認識精度を達成しました。これは、1 つまたは 2 つのモダリティの入力を考慮したパフォーマンスよりも優れています。

要約(オリジナル)

This paper proposes a multimodal emotion recognition system, VIsual Spoken Textual Additive Net (VISTA Net), to classify the emotions reflected by a multimodal input containing image, speech, and text into discrete classes. A new interpretability technique, K-Average Additive exPlanation (KAAP), has also been developed to identify the important visual, spoken, and textual features leading to predicting a particular emotion class. The VISTA Net fuses the information from image, speech & text modalities using a hybrid of early and late fusion. It automatically adjusts the weights of their intermediate outputs while computing the weighted average without human intervention. The KAAP technique computes the contribution of each modality and corresponding features toward predicting a particular emotion class. To mitigate the insufficiency of multimodal emotion datasets labeled with discrete emotion classes, we have constructed a large-scale IIT-R MMEmoRec dataset consisting of real-life images, corresponding speech & text, and emotion labels (‘angry,’ ‘happy,’ ‘hate,’ and ‘sad.’). The VISTA Net has resulted in 95.99% emotion recognition accuracy on considering image, speech, and text modalities, which is better than the performance on considering the inputs of any one or two modalities.

arxiv情報

著者 Puneet Kumar,Sarthak Malik,Balasubramanian Raman
発行日 2022-08-24 11:35:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク