要約
マルチモーダル感情分析(MSA)は、言語、視覚、音響のモダリティを活用することにより、人間の感情を理解するよう努めています。
以前のMSAアプローチによって示された驚くべきパフォーマンスにもかかわらず、固有のマルチモーダル不均一性の存在は課題をもたらし、異なるモダリティの貢献度はかなり異なります。
過去の研究は、主に表現学習技術の改善と特徴融合戦略に焦点を当てていました。
しかし、これらの努力の多くは、異なるモダリティ間の意味的な豊かさの変動を見落とし、各モダリティを均一に扱いました。
このアプローチは、弱いモダリティの重要性を強調しすぎて、強いモダリティの重要性を過小評価することにつながる可能性があります。
これらの洞察に動機付けられて、MSAにおけるテキストモダリティの主な役割を強調し、テキスト指向のクロスアテンションネットワーク(TCAN)を紹介します。
具体的には、各マルチモーダルサンプルについて、3つのモダリティの無整合シーケンスを入力として使用することにより、最初に抽出されたユニモーダル機能を視覚テキストとアコーステキストペアに割り当てます。
その後、テキストのモダリティに自己関節を実装し、視覚的および音響モダリティにテキストQuarsedの相互告知を適用します。
ノイズ信号と冗長機能の影響を緩和するために、ゲート制御メカニズムをフレームワークに組み込みます。
さらに、バックプロパゲーションを通じて多様なモダリティ全体で均一な感情的傾向をより深く理解するために、単峰性の共同学習を導入します。
実験結果は、TCANが2つのデータセット(CMU-MOSIおよびCMU-MOSEI)で一貫して最先端のMSAメソッドを上回ることを示しています。
要約(オリジナル)
Multimodal Sentiment Analysis (MSA) endeavors to understand human sentiment by leveraging language, visual, and acoustic modalities. Despite the remarkable performance exhibited by previous MSA approaches, the presence of inherent multimodal heterogeneities poses a challenge, with the contribution of different modalities varying considerably. Past research predominantly focused on improving representation learning techniques and feature fusion strategies. However, many of these efforts overlooked the variation in semantic richness among different modalities, treating each modality uniformly. This approach may lead to underestimating the significance of strong modalities while overemphasizing the importance of weak ones. Motivated by these insights, we introduce a Text-oriented Cross-Attention Network (TCAN), emphasizing the predominant role of the text modality in MSA. Specifically, for each multimodal sample, by taking unaligned sequences of the three modalities as inputs, we initially allocate the extracted unimodal features into a visual-text and an acoustic-text pair. Subsequently, we implement self-attention on the text modality and apply text-queried cross-attention to the visual and acoustic modalities. To mitigate the influence of noise signals and redundant features, we incorporate a gated control mechanism into the framework. Additionally, we introduce unimodal joint learning to gain a deeper understanding of homogeneous emotional tendencies across diverse modalities through backpropagation. Experimental results demonstrate that TCAN consistently outperforms state-of-the-art MSA methods on two datasets (CMU-MOSI and CMU-MOSEI).
arxiv情報
著者 | Weize Quan,Yunfei Feng,Ming Zhou,Yunzhen Zhao,Tong Wang,Dong-Ming Yan |
発行日 | 2025-04-23 07:56:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google