GSIFN: A Graph-Structured and Interlaced-Masked Multimodal Transformer Based Fusion Network for Multimodal Sentiment Analysis

要約

マルチモーダル感情分析 (MSA) は、複数のモーダルを活用して感情を分析します。
通常、高度な融合手法と表現学習ベースの手法は、これに取り組むように設計されています。
私たちが提案する GSIFN は、MSA で解決すべき 2 つの重要な問題を解決します。(i) マルチモーダル核融合では、既存の融合手法におけるモードの組み合わせの切り離しと膨大なパラメータの冗長性が、核融合のパフォーマンスと効率の低下につながります。
(ii) 単峰性の特徴抽出器および拡張器の表現能力と計算オーバーヘッドとの間のトレードオフ。
GSIFN には、これらの問題を解決するために 2 つの主要コンポーネントが組み込まれています。(i) グラフ構造およびインターレース マスクされたマルチモーダル トランスフォーマー。
インターレース マスク メカニズムを採用して、堅牢なマルチモーダル グラフ埋め込みを構築し、オールモーダル イン ワンの Transformer ベースの融合を実現し、計算オーバーヘッドを大幅に削減します。
(ii) 計算オーバーヘッドが低く、パフォーマンスが高い自己教師あり学習フレームワーク。マトリックス メモリを備えた並列化 LSTM を利用して、単峰性ラベル生成のための非言語モーダル機能を強化します。
MSA データセット CMU-MOSI、CMU-MOSEI、および CH-SIMS で評価された GSIFN は、最先端の手法と比較して、計算オーバーヘッドが大幅に低くなり、優れたパフォーマンスを示します。

要約(オリジナル)

Multimodal Sentiment Analysis (MSA) leverages multiple modals to analyze sentiments. Typically, advanced fusion methods and representation learning-based methods are designed to tackle it. Our proposed GSIFN solves two key problems to be solved in MSA: (i) In multimodal fusion, the decoupling of modal combinations and tremendous parameter redundancy in existing fusion methods, which lead to poor fusion performance and efficiency. (ii) The trade-off between representation capability and computation overhead of the unimodal feature extractors and enhancers. GSIFN incorporates two main components to solve these problems: (i) Graph-Structured and Interlaced-Masked Multimodal Transformer. It adopts the Interlaced Mask mechanism to construct robust multimodal graph embedding, achieve all-modal-in-one Transformer-based fusion, and greatly reduce the computation overhead. (ii) A self-supervised learning framework with low computation overhead and high performance, which utilizes a parallelized LSTM with matrix memory to enhance non-verbal modal feature for unimodal label generation. Evaluated on the MSA datasets CMU-MOSI, CMU-MOSEI, and CH-SIMS, GSIFN demonstrates superior performance with significantly lower computation overhead compared with state-of-the-art methods.

arxiv情報

著者 Yijie Jin
発行日 2024-08-27 06:44:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク