Exploring Cognitive and Aesthetic Causality for Multimodal Aspect-Based Sentiment Analysis

要約

マルチモーダルアスペクトベースのセンチメント分類(MASC)は、特定のアスペクトターゲット(つまり、テキスト画像ペアで明示的に言及されているエンティティまたは属性)に対する感情の極性を予測することを目的とした、ソーシャルプラットフォーム上のユーザー生成マルチモーダルコンテンツの増加により、新たなタスクです。
既存のMASCの広範な努力と重要な成果にもかかわらず、微細な視覚コンテンツとセマンティックコンテンツと印象(画像コンテンツによって引き起こされる感情の認知的解釈)から導き出された認知的理論的根拠を理解することにかなりのギャップが残っています。
この研究では、キメラを提示します。認知的および審美的な感情因果性理解フレームワークは、側面のきめ細かい全体的な特徴を導き出し、セマンティックな観点と感情的な共鳴(感情的反応と認知的解釈の間の相乗効果)の両方から感情表現の基本的なドライバーを推測します。
具体的には、このフレームワークには、最初にパッチワードアラインメントの視覚的なパッチ機能が組み込まれています。
一方、粗粒の視覚的特徴(たとえば、全体の画像表現)ときめ細かい視覚領域(例:アスペクト関連領域)を抽出し、それらを対応するテキストの説明(例:顔、美学)に変換します。
最後に、大規模な言語モデル(LLM)によって生成された感傷的な原因と印象を活用して、セマンティックコンテンツと感情的認知共鳴によって引き起こされる感傷的なキューに対するモデルの認識を高めます。
標準のMASCデータセットの実験結果は、提案されたモデルの有効性を示しています。これは、GPT-4OなどのLLMと比較してMASCに対してより大きな柔軟性を示します。
https://github.com/xillv/chimeraで完全な実装とデータセットを公開しました

要約(オリジナル)

Multimodal aspect-based sentiment classification (MASC) is an emerging task due to an increase in user-generated multimodal content on social platforms, aimed at predicting sentiment polarity toward specific aspect targets (i.e., entities or attributes explicitly mentioned in text-image pairs). Despite extensive efforts and significant achievements in existing MASC, substantial gaps remain in understanding fine-grained visual content and the cognitive rationales derived from semantic content and impressions (cognitive interpretations of emotions evoked by image content). In this study, we present Chimera: a cognitive and aesthetic sentiment causality understanding framework to derive fine-grained holistic features of aspects and infer the fundamental drivers of sentiment expression from both semantic perspectives and affective-cognitive resonance (the synergistic effect between emotional responses and cognitive interpretations). Specifically, this framework first incorporates visual patch features for patch-word alignment. Meanwhile, it extracts coarse-grained visual features (e.g., overall image representation) and fine-grained visual regions (e.g., aspect-related regions) and translates them into corresponding textual descriptions (e.g., facial, aesthetic). Finally, we leverage the sentimental causes and impressions generated by a large language model (LLM) to enhance the model’s awareness of sentimental cues evoked by semantic content and affective-cognitive resonance. Experimental results on standard MASC datasets demonstrate the effectiveness of the proposed model, which also exhibits greater flexibility to MASC compared to LLMs such as GPT-4o. We have publicly released the complete implementation and dataset at https://github.com/Xillv/Chimera

arxiv情報

著者 Luwei Xiao,Rui Mao,Shuai Zhao,Qika Lin,Yanhao Jia,Liang He,Erik Cambria
発行日 2025-04-22 12:43:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク