Enhancing Multimodal Emotion Recognition through Multi-Granularity Cross-Modal Alignment


音声とテキストを活用するマルチモーダル感情認識 (MER) は、人間とコンピューターのインタラクションの中で極めて重要な領域として浮上しており、効果的なマルチモーダル統合のための高度な方法が求められています。
これに応えて、このホワイト ペーパーでは、ディストリビューション ベース、インスタンス ベース、およびトークン ベースのアラインメント モジュールを含む包括的なアプローチによって特徴付けられる、Multi-Granularity Cross-Modal Alignment (MGCMA) フレームワークを紹介します。
IEMOCAP に関する私たちの実験は、私たちが提案した方法が現在の最先端技術よりも優れていることを示しています。


Multimodal emotion recognition (MER), leveraging speech and text, has emerged as a pivotal domain within human-computer interaction, demanding sophisticated methods for effective multimodal integration. The challenge of aligning features across these modalities is significant, with most existing approaches adopting a singular alignment strategy. Such a narrow focus not only limits model performance but also fails to address the complexity and ambiguity inherent in emotional expressions. In response, this paper introduces a Multi-Granularity Cross-Modal Alignment (MGCMA) framework, distinguished by its comprehensive approach encompassing distribution-based, instance-based, and token-based alignment modules. This framework enables a multi-level perception of emotional information across modalities. Our experiments on IEMOCAP demonstrate that our proposed method outperforms current state-of-the-art techniques.


著者 Xuechen Wang,Shiwan Zhao,Haoqin Sun,Hui Wang,Jiaming Zhou,Yong Qin
発行日 2024-12-30 09:30:41+00:00
