Cross-Attention is Not Enough: Incongruity-Aware Hierarchical Multimodal Sentiment Analysis and Emotion Recognition

要約

感情的なコンピューティング タスクに複数のモダリティを融合することは、パフォーマンスの向上に効果的であることが証明されています。
ただし、マルチモーダル フュージョンがどのように機能するかは十分に理解されておらず、現実世界で使用すると、通常、モデル サイズが大きくなります。
感情と感情の分析に関するこの研究では、まず、あるモダリティにおける顕著な感情情報が、クロスモーダルな注意において他のモダリティによってどのように影響を受けるかを分析します。
私たちは、クロスモーダルな注意により、モーダル間の不調和が潜在レベルで存在することを発見しました。
この発見に基づいて、モダリティゲーティングを備えた階層型クロスモーダルトランスフォーマー(HCT-MG)を介した軽量モデルを提案します。このモデルは、ターゲットタスクへの寄与に応じて主要モダリティを決定し、その後、補助モダリティを階層的に組み込んで、モーダル間の不整合を軽減し、モダリティを軽減します。
情報の冗長性。
CMU-MOSI、CMU-MOSEI、IEMOCAP の 3 つのベンチマーク データセットに対する実験的評価により、私たちのアプローチの有効性が検証され、次のことがわかります。1) 以前の研究および主要モダリティの手動選択よりも優れたパフォーマンスを達成する。
2) 感情が伝わりにくい硬いサンプルを認識できます。
3) モダリティの感情傾向が一致しない場合に、モード間の不調和を潜在レベルで軽減します。
4) モデル サイズを 100 万パラメータ未満に削減しながら、同様のサイズの既存のモデルよりも優れたパフォーマンスを発揮します。

要約(オリジナル)

Fusing multiple modalities for affective computing tasks has proven effective for performance improvement. However, how multimodal fusion works is not well understood, and its use in the real world usually results in large model sizes. In this work, on sentiment and emotion analysis, we first analyze how the salient affective information in one modality can be affected by the other in crossmodal attention. We find that inter-modal incongruity exists at the latent level due to crossmodal attention. Based on this finding, we propose a lightweight model via Hierarchical Crossmodal Transformer with Modality Gating (HCT-MG), which determines a primary modality according to its contribution to the target task and then hierarchically incorporates auxiliary modalities to alleviate inter-modal incongruity and reduce information redundancy. The experimental evaluation on three benchmark datasets: CMU-MOSI, CMU-MOSEI, and IEMOCAP verifies the efficacy of our approach, showing that it: 1) achieves better performance than prior work as well as manual selection of the primary modality; 2) can recognize hard samples whose emotions are hard to tell; 3) mitigates the inter-modal incongruity at the latent level when modalities have mismatched affective tendencies; 4) reduces model size to less than 1M parameters while outperforming existing models of similar sizes.

arxiv情報

著者 Yaoting Wang,Yuanchao Li,Peter Bell,Catherine Lai
発行日 2023-06-27 05:48:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.MM, eess.AS, eess.IV パーマリンク