Shared and Private Information Learning in Multimodal Sentiment Analysis with Deep Modal Alignment and Self-supervised Multi-Task Learning

要約

マルチモーダル感情分析タスクのための効果的な表現学習方法を設計することは、重要な研究の方向性です。
課題は、共有情報とプライベート情報の両方を完全なモーダル表現で学習することにありますが、均一なマルチモーダル ラベルと生の特徴融合アプローチでは困難です。
この研究では、モダリティ間の共有情報を取得するための共分散行列に基づく深層モーダル共有情報学習モジュールを提案します。
さらに、自己教師あり学習戦略に基づいたラベル生成モジュールを使用して、モダリティのプライベート情報を取得します。
私たちのモジュールはマルチモーダル タスクでプラグ アンド プレイであり、パラメーター化を変更することで、モード間の情報交換関係を調整し、指定されたモード間のプライベートまたは共有情報を学習できます。
また、モデルがモード微分トレーニング データに注意を集中できるようにするために、マルチタスク学習戦略も採用しています。
ディープモーダル共有情報学習モジュールの設計のための詳細な定式導出と実現可能性の証明を提供します。
私たちは 3 つの一般的なマルチモーダル感情分析ベースライン データセットに対して広範な実験を実施し、実験結果によってモデルの信頼性が検証されました。
さらに、モジュールを使用するためのより多くの組み合わせ手法を検討します。
私たちのアプローチは、3 つの公開データセットのほとんどの指標において、現在の最先端の手法を上回ります。

要約(オリジナル)

Designing an effective representation learning method for multimodal sentiment analysis tasks is a crucial research direction. The challenge lies in learning both shared and private information in a complete modal representation, which is difficult with uniform multimodal labels and a raw feature fusion approach. In this work, we propose a deep modal shared information learning module based on the covariance matrix to capture the shared information between modalities. Additionally, we use a label generation module based on a self-supervised learning strategy to capture the private information of the modalities. Our module is plug-and-play in multimodal tasks, and by changing the parameterization, it can adjust the information exchange relationship between the modes and learn the private or shared information between the specified modes. We also employ a multi-task learning strategy to help the model focus its attention on the modal differentiation training data. We provide a detailed formulation derivation and feasibility proof for the design of the deep modal shared information learning module. We conduct extensive experiments on three common multimodal sentiment analysis baseline datasets, and the experimental results validate the reliability of our model. Furthermore, we explore more combinatorial techniques for the use of the module. Our approach outperforms current state-of-the-art methods on most of the metrics of the three public datasets.

arxiv情報

著者 Songning Lai,Jiakang Li,Guinan Guo,Xifeng Hu,Yulong Li,Yuan Tan,Zichen Song,Yutong Liu,Zhaoxia Ren,Chun Wan,Danmin Miao,Zhi Liu
発行日 2024-03-19 07:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク