RCLMuFN: Relational Context Learning and Multiplex Fusion Network for Multimodal Sarcasm Detection

要約

皮肉は通常、話し手の真の意図に反する意味を表現することで、軽蔑や批判の感情を伝えます。
皮肉を正確に検出することは、インターネット上の望ましくない情報を特定してフィルタリングするのに役立ち、それによって悪意のある中傷や噂の煽りを減らすことができます。
それにもかかわらず、皮肉を自動的に検出するタスクは、関係性のコンテキストなどの複雑な要因に大きく依存するため、機械にとって依然として非常に困難です。
既存のマルチモーダル皮肉検出手法のほとんどは、グラフ構造を導入してテキストと画像間のエンティティ関係を確立することに焦点を当てており、皮肉の意味を理解するための重要な証拠であるテキストと画像間の関係コンテキストの学習を無視しています。
さらに、皮肉の意味はさまざまな文脈の進化とともに変化しますが、既存の方法ではそのような動的な変化を正確にモデル化できない可能性があり、モデルの一般化能力が制限されます。
上記の問題に対処するために、マルチモーダルな皮肉検出のためのリレーショナル コンテキスト学習および多重融合ネットワーク (RCLMuFN) を提案します。
まず、4 つの特徴抽出ツールを使用して生のテキストと画像から特徴を包括的に抽出し、これまで見落とされていた可能性のある潜在的な特徴を発掘することを目的としています。
次に、リレーショナル コンテキスト学習モジュールを利用して、テキストと画像のコンテキスト情報を学習し、浅い対話と深い対話を通じて動的プロパティをキャプチャします。
最後に、多重特徴融合モジュールを採用して、さまざまなインタラクション コンテキストから派生したマルチモーダルな特徴を徹底的に統合することでモデルの一般化を強化します。
2 つのマルチモーダル皮肉検出データセットに対する広範な実験により、提案された方法が最先端のパフォーマンスを達成することが示されました。

要約(オリジナル)

Sarcasm typically conveys emotions of contempt or criticism by expressing a meaning that is contrary to the speaker’s true intent. Accurate detection of sarcasm aids in identifying and filtering undesirable information on the Internet, thereby reducing malicious defamation and rumor-mongering. Nonetheless, the task of automatic sarcasm detection remains highly challenging for machines, as it critically depends on intricate factors such as relational context. Most existing multimodal sarcasm detection methods focus on introducing graph structures to establish entity relationships between text and images while neglecting to learn the relational context between text and images, which is crucial evidence for understanding the meaning of sarcasm. In addition, the meaning of sarcasm changes with the evolution of different contexts, but existing methods may not be accurate in modeling such dynamic changes, limiting the generalization ability of the models. To address the above issues, we propose a relational context learning and multiplex fusion network (RCLMuFN) for multimodal sarcasm detection. Firstly, we employ four feature extractors to comprehensively extract features from raw text and images, aiming to excavate potential features that may have been previously overlooked. Secondly, we utilize the relational context learning module to learn the contextual information of text and images and capture the dynamic properties through shallow and deep interactions. Finally, we employ a multiplex feature fusion module to enhance the generalization of the model by penetratingly integrating multimodal features derived from various interaction contexts. Extensive experiments on two multimodal sarcasm detection datasets show that our proposed method achieves state-of-the-art performance.

arxiv情報

著者 Tongguan Wang,Junkai Li,Guixin Su,Yongcheng Zhang,Dongyu Su,Yuxue Hu,Ying Sha
発行日 2024-12-17 15:29:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク