Revisiting Disentanglement and Fusion on Modality and Context in Conversational Multimodal Emotion Recognition

要約

会話におけるマルチモーダル感情分析 (MM-ERC) を任務とする、対話シナリオの下でマルチモーダルなコンテキストにおける人間の感情を機械が理解できるようにすることが注目の研究テーマとなっています。
MM-ERC は近年一貫して注目を集めており、より優れたタスクパフォ​​ーマンスを確保するためにさまざまな方法が提案されています。
既存の研究のほとんどは、MM-ERC を標準的なマルチモーダル分類問題として扱い、特徴の有用性を最大化するためにマルチモーダルな特徴のもつれ解除と融合を実行します。
しかし、MM-ERC の特性を再検討した後、特徴のマルチモダリティと会話のコンテキスト化の両方が、特徴のもつれ解除と融合のステップ中に同時に適切にモデル化されるべきであると主張します。
この作業では、上記の洞察を十分に考慮して、タスクのパフォーマンスをさらに向上させることを目標としています。
一方では、特徴のもつれを解く際に、対比学習手法に基づいて、特徴をモダリティ空間と発話空間の両方に分離するデュアルレベルのもつれ解除メカ​​ニズム (DDM) を考案します。
一方、機能融合段階では、マルチモーダル統合とコンテキスト統合のために、それぞれコントリビューションを意識した融合メカニズム (CFM) とコンテキスト拒否メカニズム (CRM) を提案します。
これらは、マルチモーダル機能とコンテキスト機能の適切な統合を一緒にスケジュールします。
具体的には、CFM はマルチモーダル機能の貢献を動的に明示的に管理し、CRM は対話コンテキストの導入を柔軟に調整します。
2 つの公開 MM-ERC データセット上で、当社のシステムは常に新しい最先端のパフォーマンスを達成します。
さらなる分析により、私たちが提案したすべてのメカニズムは、マルチモーダル機能とコンテキスト機能を適応的に最大限に活用することにより、MM-ERC タスクを大幅に促進することが実証されました。
私たちが提案する方法には、他の幅広い会話型マルチモーダル タスクを容易にする大きな可能性があることに注意してください。

要約(オリジナル)

It has been a hot research topic to enable machines to understand human emotions in multimodal contexts under dialogue scenarios, which is tasked with multimodal emotion analysis in conversation (MM-ERC). MM-ERC has received consistent attention in recent years, where a diverse range of methods has been proposed for securing better task performance. Most existing works treat MM-ERC as a standard multimodal classification problem and perform multimodal feature disentanglement and fusion for maximizing feature utility. Yet after revisiting the characteristic of MM-ERC, we argue that both the feature multimodality and conversational contextualization should be properly modeled simultaneously during the feature disentanglement and fusion steps. In this work, we target further pushing the task performance by taking full consideration of the above insights. On the one hand, during feature disentanglement, based on the contrastive learning technique, we devise a Dual-level Disentanglement Mechanism (DDM) to decouple the features into both the modality space and utterance space. On the other hand, during the feature fusion stage, we propose a Contribution-aware Fusion Mechanism (CFM) and a Context Refusion Mechanism (CRM) for multimodal and context integration, respectively. They together schedule the proper integrations of multimodal and context features. Specifically, CFM explicitly manages the multimodal feature contributions dynamically, while CRM flexibly coordinates the introduction of dialogue contexts. On two public MM-ERC datasets, our system achieves new state-of-the-art performance consistently. Further analyses demonstrate that all our proposed mechanisms greatly facilitate the MM-ERC task by making full use of the multimodal and context features adaptively. Note that our proposed methods have the great potential to facilitate a broader range of other conversational multimodal tasks.

arxiv情報

著者 Bobo Li,Hao Fei,Lizi Liao,Yu Zhao,Chong Teng,Tat-Seng Chua,Donghong Ji,Fei Li
発行日 2023-08-08 18:11:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク