要約
会話におけるマルチモーダル感情認識 (MERC) の主なタスクは、テキスト、音声、画像、ビデオなどのモダリティ内の感情を識別することであり、これは機械知能を実現するための重要な開発方向です。
しかし、MERC の多くのデータは当然、感情カテゴリの不均衡な分布を示しており、研究者は不均衡なデータが感情認識に及ぼす悪影響を無視しています。
この問題に取り組むために、データ拡張、損失感度、サンプリング戦略の 3 つの側面から系統的に分析し、クラス境界拡張表現学習 (CBERL) モデルを提案します。
具体的には、まず、生データ内の {感情} カテゴリの不均衡な分布に対処するために、マルチモーダルな敵対的生成ネットワークを設計します。
第二に、モダリティ全体で相補的な意味情報を融合し、識別可能な特徴表現を取得するために、ディープジョイント変分オートエンコーダが提案されています。
最後に、マスク再構成と分類最適化を備えたマルチタスク グラフ ニューラル ネットワークを実装して、クラス境界学習における過学習と過小学習の問題を解決し、クロスモーダル感情認識を実現します。
IEMOCAP および MELD ベンチマーク データセットに対して広範な実験を実施し、その結果、CBERL が感情認識の有効性において一定のパフォーマンス向上を達成したことが示されました。
特に少数派の恐怖と嫌悪の感情ラベルに関して、私たちのモデルは精度と F1 値を 10% ~ 20% 改善しました。
要約(オリジナル)
The main task of Multimodal Emotion Recognition in Conversations (MERC) is to identify the emotions in modalities, e.g., text, audio, image and video, which is a significant development direction for realizing machine intelligence. However, many data in MERC naturally exhibit an imbalanced distribution of emotion categories, and researchers ignore the negative impact of imbalanced data on emotion recognition. To tackle this problem, we systematically analyze it from three aspects: data augmentation, loss sensitivity, and sampling strategy, and propose the Class Boundary Enhanced Representation Learning (CBERL) model. Concretely, we first design a multimodal generative adversarial network to address the imbalanced distribution of {emotion} categories in raw data. Secondly, a deep joint variational autoencoder is proposed to fuse complementary semantic information across modalities and obtain discriminative feature representations. Finally, we implement a multi-task graph neural network with mask reconstruction and classification optimization to solve the problem of overfitting and underfitting in class boundary learning, and achieve cross-modal emotion recognition. We have conducted extensive experiments on the IEMOCAP and MELD benchmark datasets, and the results show that CBERL has achieved a certain performance improvement in the effectiveness of emotion recognition. Especially on the minority class fear and disgust emotion labels, our model improves the accuracy and F1 value by 10% to 20%.
arxiv情報
| 著者 | Tao Meng,Yuntao Shou,Wei Ai,Nan Yin,Keqin Li |
| 発行日 | 2023-12-11 12:35:17+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google