Cooperative Sentiment Agents for Multimodal Sentiment Analysis

要約

この論文では、マルチモーダル感情分析 (MSA) のための新しいマルチモーダル表現学習 (MRL) 手法を提案します。この手法は、Co-SA と呼ばれる協調感情エージェントを介してモダリティ間の適応的相互作用を促進します。
Co-SA は、センチメント エージェント確立 (SAE) フェーズとセンチメント エージェント協力 (SAC) フェーズという 2 つの重要なコンポーネントで構成されます。
SAE フェーズでは、各センチメント エージェントが単峰性シグナルを処理し、モダリティ-センチメント解絡 (MSD) およびディープ フェーズ空間再構築 (DPSR) モジュールを介して、モダリティ内の明示的な動的なセンチメントの変動を強調表示します。
続いて、SAC フェーズでは、Co-SA がセンチメント エージェントのタスク固有の対話メカニズムを細心の注意を払って設計し、マルチモーダルな信号を調整して共同表現を学習します。
具体的には、Co-SA は、モダリティ内の重要な特性を捕捉する感情エージェントごとに独立したポリシー モデルを装備します。
これらのポリシーは、下流のタスクに適応する統一された報酬を通じて相互に最適化されます。
報酬メカニズムの恩恵を受けて、Co-SA は事前定義された融合モードの制限を超え、マルチモーダルな相互作用設定における MRL のユニモーダルな特性を適応的に捕捉します。
Co-SA の有効性を実証するために、Co-SA を適用してマルチモーダル感情分析 (MSA) タスクとマルチモーダル感情認識 (MER) タスクに対処します。
私たちの包括的な実験結果は、Co-SA が、共通の側面と補完的な側面の両方を包含する、多様なクロスモーダル機能の発見に優れていることを示しています。
コードは https://github.com/smwanghh/Co-SA で入手できます。

要約(オリジナル)

In this paper, we propose a new Multimodal Representation Learning (MRL) method for Multimodal Sentiment Analysis (MSA), which facilitates the adaptive interaction between modalities through Cooperative Sentiment Agents, named Co-SA. Co-SA comprises two critical components: the Sentiment Agents Establishment (SAE) phase and the Sentiment Agents Cooperation (SAC) phase. During the SAE phase, each sentiment agent deals with an unimodal signal and highlights explicit dynamic sentiment variations within the modality via the Modality-Sentiment Disentanglement (MSD) and Deep Phase Space Reconstruction (DPSR) modules. Subsequently, in the SAC phase, Co-SA meticulously designs task-specific interaction mechanisms for sentiment agents so that coordinating multimodal signals to learn the joint representation. Specifically, Co-SA equips an independent policy model for each sentiment agent that captures significant properties within the modality. These policies are optimized mutually through the unified reward adaptive to downstream tasks. Benefitting from the rewarding mechanism, Co-SA transcends the limitation of pre-defined fusion modes and adaptively captures unimodal properties for MRL in the multimodal interaction setting. To demonstrate the effectiveness of Co-SA, we apply it to address Multimodal Sentiment Analysis (MSA) and Multimodal Emotion Recognition (MER) tasks. Our comprehensive experimental results demonstrate that Co-SA excels at discovering diverse cross-modal features, encompassing both common and complementary aspects. The code can be available at https://github.com/smwanghhh/Co-SA.

arxiv情報

著者 Shanmin Wang,Hui Shuai,Qingshan Liu,Fei Wang
発行日 2024-04-19 05:48:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク