Adversarial Representation with Intra-Modal and Inter-Modal Graph Contrastive Learning for Multimodal Emotion Recognition

要約

ソーシャル メディア プラットフォーム上でリリースされるオープンソースの感情認識データセットの増加とコンピューティング リソースの急速な発展により、マルチモーダル感情認識タスク (MER) が幅広い研究の注目を集め始めています。
MER タスクは、さまざまなモダリティから相補的な意味情報を抽出して融合し、話者の感情を分類できます。
しかし、既存の特徴融合手法は通常、異なるモダリティの特徴を同じ特徴空間にマッピングして情報融合を行っており、異なるモダリティ間の異質性を排除することはできません。
したがって、その後の感情クラスを境界学習にすることが困難です。
上記の問題に取り組むために、我々は、マルチモーダル感情認識のためのイントラモーダルおよびインターモーダルグラフ対比による新しい敵対的表現 (AR-IIGCN) 方法を提案しました。
まず、ビデオ、オーディオ、テキストの特徴を多層パーセプトロン (MLP) に入力し、それらを個別の特徴空間にマッピングします。
次に、敵対的表現を通じて 3 つのモーダル特徴のジェネレーターとディスクリミネーターを構築します。これにより、モダリティ間の情報の相互作用を実現し、モダリティ間の異質性を排除できます。
第三に、モーダル内およびモーダル間の相補的意味情報を捕捉し、感情カテゴリのクラス内およびクラス間の境界情報を学習するために、対照的なグラフ表現学習を導入します。
具体的には、3つのモーダル特徴量のグラフ構造を構築し、同じモダリティで異なる感情を持つノードと、異なるモダリティで同じ感情を持つノードの対比表現学習を行うことで、ノードの特徴表現能力を向上させることができます。
広範な実験研究により、ARL-IIGCN メソッドが IEMOCAP および MELD データセットでの感情認識の精度を大幅に向上できることが示されています。

要約(オリジナル)

With the release of increasing open-source emotion recognition datasets on social media platforms and the rapid development of computing resources, multimodal emotion recognition tasks (MER) have begun to receive widespread research attention. The MER task extracts and fuses complementary semantic information from different modalities, which can classify the speaker’s emotions. However, the existing feature fusion methods have usually mapped the features of different modalities into the same feature space for information fusion, which can not eliminate the heterogeneity between different modalities. Therefore, it is challenging to make the subsequent emotion class boundary learning. To tackle the above problems, we have proposed a novel Adversarial Representation with Intra-Modal and Inter-Modal Graph Contrastive for Multimodal Emotion Recognition (AR-IIGCN) method. Firstly, we input video, audio, and text features into a multi-layer perceptron (MLP) to map them into separate feature spaces. Secondly, we build a generator and a discriminator for the three modal features through adversarial representation, which can achieve information interaction between modalities and eliminate heterogeneity among modalities. Thirdly, we introduce contrastive graph representation learning to capture intra-modal and inter-modal complementary semantic information and learn intra-class and inter-class boundary information of emotion categories. Specifically, we construct a graph structure for three modal features and perform contrastive representation learning on nodes with different emotions in the same modality and the same emotion in different modalities, which can improve the feature representation ability of nodes. Extensive experimental works show that the ARL-IIGCN method can significantly improve emotion recognition accuracy on IEMOCAP and MELD datasets.

arxiv情報

著者 Yuntao Shou,Tao Meng,Wei Ai,Keqin Li
発行日 2023-12-28 01:57:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク