DLF: Disentangled-Language-Focused Multimodal Sentiment Analysis

要約

マルチモーダル感情分析 (MSA) は、言語、視覚、音声などの異種モダリティを活用して、人間の感情の理解を強化します。
既存のモデルは多くの場合、モダリティ間で共有された情報を抽出したり、異種モダリティを直接融合したりすることに焦点を当てていますが、そのようなアプローチでは、すべてのモダリティの平等な扱いやモダリティペア間の情報の相互転送により、冗長性や競合が発生する可能性があります。
これらの問題に対処するために、我々は、モダリティ共有情報とモダリティ固有の情報を分離する特徴分解モジュールを組み込んだ、言語中心の解絡(DLF)マルチモーダル表現学習フレームワークを提案します。
冗長性をさらに削減し、言語を対象とした機能を強化するために、4 つの幾何学的尺度が導入され、もつれ解除プロセスが改良されます。
言語に焦点を当てたアトラクター (LFA) は、言語ガイドによるクロスアテンション メカニズムを通じて相補的なモダリティ固有の情報を活用することにより、言語表現を強化するためにさらに開発されました。
このフレームワークは、全体的な精度を向上させるために階層型予測も採用しています。
2 つの一般的な MSA データセット、CMU-MOSI と CMU-MOSEI に対する広範な実験により、提案された DLF フレームワークによって達成される大幅なパフォーマンスの向上が実証されました。
包括的なアブレーション研究により、特徴分解モジュール、言語に焦点を当てたアトラクター、および階層予測の有効性がさらに検証されます。
私たちのコードは https://github.com/pwang322/DLF で入手できます。

要約(オリジナル)

Multimodal Sentiment Analysis (MSA) leverages heterogeneous modalities, such as language, vision, and audio, to enhance the understanding of human sentiment. While existing models often focus on extracting shared information across modalities or directly fusing heterogeneous modalities, such approaches can introduce redundancy and conflicts due to equal treatment of all modalities and the mutual transfer of information between modality pairs. To address these issues, we propose a Disentangled-Language-Focused (DLF) multimodal representation learning framework, which incorporates a feature disentanglement module to separate modality-shared and modality-specific information. To further reduce redundancy and enhance language-targeted features, four geometric measures are introduced to refine the disentanglement process. A Language-Focused Attractor (LFA) is further developed to strengthen language representation by leveraging complementary modality-specific information through a language-guided cross-attention mechanism. The framework also employs hierarchical predictions to improve overall accuracy. Extensive experiments on two popular MSA datasets, CMU-MOSI and CMU-MOSEI, demonstrate the significant performance gains achieved by the proposed DLF framework. Comprehensive ablation studies further validate the effectiveness of the feature disentanglement module, language-focused attractor, and hierarchical predictions. Our code is available at https://github.com/pwang322/DLF.

arxiv情報

著者 Pan Wang,Qiang Zhou,Yawen Wu,Tianlong Chen,Jingtong Hu
発行日 2024-12-26 19:23:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM パーマリンク