Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Analysis

要約

マルチモーダル感情分析 (MSA) は、複数のソース (言語、ビデオ、音声など) からの豊富な情報を利用することで効果的であることが証明されていますが、潜在的な感情に無関係で、モダリティ間で矛盾する情報がパフォーマンスのさらなる向上を妨げる可能性があります。
これを軽減するために、適応型言語ガイド付きマルチモーダルトランスフォーマー(ALMT)を紹介します。これには、異なる言語機能の指導の下で、視覚および音声の特徴から無関係性/矛盾を抑制する表現を学習する適応型ハイパーモダリティ学習(AHL)モジュールが組み込まれています。
秤。
得られたハイパーモダリティ表現を使用して、モデルは効果的な MSA のためのマルチモーダル融合を通じて相補的かつ統合的な表現を取得できます。
実際、ALMT はいくつかの人気のあるデータセット (MOSI、MOSEI、CH-SIMS など) で最先端のパフォーマンスを達成しており、豊富なアブレーションは、無関係/競合抑制メカニズムの有効性と必要性​​を示しています。

要約(オリジナル)

Though Multimodal Sentiment Analysis (MSA) proves effective by utilizing rich information from multiple sources (e.g., language, video, and audio), the potential sentiment-irrelevant and conflicting information across modalities may hinder the performance from being further improved. To alleviate this, we present Adaptive Language-guided Multimodal Transformer (ALMT), which incorporates an Adaptive Hyper-modality Learning (AHL) module to learn an irrelevance/conflict-suppressing representation from visual and audio features under the guidance of language features at different scales. With the obtained hyper-modality representation, the model can obtain a complementary and joint representation through multimodal fusion for effective MSA. In practice, ALMT achieves state-of-the-art performance on several popular datasets (e.g., MOSI, MOSEI and CH-SIMS) and an abundance of ablation demonstrates the validity and necessity of our irrelevance/conflict suppression mechanism.

arxiv情報

著者 Haoyu Zhang,Yu Wang,Guanghao Yin,Kejun Liu,Yuanyuan Liu,Tianshu Yu
発行日 2023-12-14 13:07:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM パーマリンク