Multimodal Representations Learning Based on Mutual Information Maximization and Minimization and Identity Embedding for Multimodal Sentiment Analysis

要約

マルチモーダル感情分析(MSA)は、異なるモダリティ間の異質性のギャップと人間の感情表現の曖昧さのために、基本的に複雑な研究問題である。MSAのためのマルチモーダル表現の構築は多くの成功例があるが、まだ2つの課題がある。1) 異質性のギャップを埋め、複雑なマルチモーダル相互作用に対応するため、より頑健なマルチモーダル表現を構築する必要がある、2) 情報フロー全体で文脈のダイナミクスを効果的にモデル化する必要がある。本研究では、相互情報量最大化・最小化および同一性埋め込み(MMMIE)に基づくマルチモーダル表現モデルを提案する。モードペア間の相互情報量最大化と、入力データと対応する特徴量間の相互情報量最小化を組み合わせ、モード不変な情報とタスクに関連する情報を抽出する。さらに、下流ネットワークに文脈情報を認識させるために、Identity Embeddingを提案する。2つのパブリックデータセットを用いた実験により、提案モデルの有効性を実証する。

要約(オリジナル)

Multimodal sentiment analysis (MSA) is a fundamental complex research problem due to the heterogeneity gap between different modalities and the ambiguity of human emotional expression. Although there have been many successful attempts to construct multimodal representations for MSA, there are still two challenges to be addressed: 1) A more robust multimodal representation needs to be constructed to bridge the heterogeneity gap and cope with the complex multimodal interactions, and 2) the contextual dynamics must be modeled effectively throughout the information flow. In this work, we propose a multimodal representation model based on Mutual information Maximization and Minimization and Identity Embedding (MMMIE). We combine mutual information maximization between modal pairs, and mutual information minimization between input data and corresponding features to mine the modal-invariant and task-related information. Furthermore, Identity Embedding is proposed to prompt the downstream network to perceive the contextual information. Experimental results on two public datasets demonstrate the effectiveness of the proposed model.

arxiv情報

著者 Jiahao Zheng,Sen Zhang,Xiaoping Wang,Zhigang Zeng
発行日 2022-07-04 15:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク