Resolving Sentiment Discrepancy for Multimodal Sentiment Detection via Semantics Completion and Decomposition


近年のソーシャル メディア投稿の急増に伴い、マルチモーダル (画像とテキスト) コンテンツから感情を検出する必要性が急速に高まっています。
この論文では、上記の問題を解決するためにセマンティクスの補完と分解 (CoDe) ネットワークを提案します。
セマンティクス補完モジュールでは、画像とテキスト表現を、画像に埋め込まれた OCR テキストのセマンティクスで補完し、感情のギャップを埋めるのに役立ちます。
4 つのマルチモーダル感情データセットに対して行われた広範な実験により、SOTA 手法に対する CoDe の優位性が実証されました。


With the proliferation of social media posts in recent years, the need to detect sentiments in multimodal (image-text) content has grown rapidly. Since posts are user-generated, the image and text from the same post can express different or even contradictory sentiments, leading to potential \textbf{sentiment discrepancy}. However, existing works mainly adopt a single-branch fusion structure that primarily captures the consistent sentiment between image and text. The ignorance or implicit modeling of discrepant sentiment results in compromised unimodal encoding and limited performances. In this paper, we propose a semantics Completion and Decomposition (CoDe) network to resolve the above issue. In the semantics completion module, we complement image and text representations with the semantics of the OCR text embedded in the image, helping bridge the sentiment gap. In the semantics decomposition module, we decompose image and text representations with exclusive projection and contrastive learning, thereby explicitly capturing the discrepant sentiment between modalities. Finally, we fuse image and text representations by cross-attention and combine them with the learned discrepant sentiment for final classification. Extensive experiments conducted on four multimodal sentiment datasets demonstrate the superiority of CoDe against SOTA methods.


著者 Daiqing Wu,Dongbao Yang,Huawen Shen,Can Ma,Yu Zhou
発行日 2024-07-09 16:46:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SI パーマリンク