Modelling Visual Semantics via Image Captioning to extract Enhanced Multi-Level Cross-Modal Semantic Incongruity Representation with Attention for Multimodal Sarcasm Detection

要約

皮肉は皮肉の一種であり、文字通りの解釈と意図された意味合いの間に本質的な不一致があることを特徴とします。
テキスト内の皮肉の検出は広範囲に研究されていますが、テキスト入力だけでは皮肉を認識するには不十分な場合があります。
ソーシャル メディア データ内の皮肉を効果的に認識するには、画像などの追加の文脈上の手がかりを含めることが不可欠です。
この研究は、入力トリプレットを処理できるマルチモーダル皮肉検出のための新しいフレームワークを提示します。
これらのトリプレットの 2 つのコンポーネントは、データセットで提供される入力テキストとそれに関連する画像で構成されます。
さらに、説明的な画像キャプションの形で補足的なモダリティが導入されています。
この視覚的な意味表現を組み込む背後にある動機は、皮肉検出タスクの基本である、テキストと視覚のコンテンツ間の不一致をより正確に捕捉することです。
この研究の主な貢献は次のとおりです。(1) 言語間言語モデルを利用した堅牢なテキスト特徴抽出ブランチ。
(2) 軽量の空間認識アテンション モジュールと統合された自己調整残差 ConvNet を組み込んだ視覚的特徴抽出ブランチ。
(3) 画像に埋め込まれたテキストを読み取ることができるエンコーダ/デコーダ アーキテクチャを使用して生成された画像キャプションの形式の追加モダリティ。
(4) テキストと 2 つのレベルの画像表現の間の不一致を効果的に識別する個別の注意モジュール。
(5) 特徴融合を通じて達成されるマルチレベルのクロスドメイン意味論的不一致表現。
最先端のベースラインと比較して、提案されたモデルは、Twitter のマルチモーダル皮肉データセットと MultiBully データセットで、それぞれ 92.89% と 64.48% という最高の精度を達成しました。

要約(オリジナル)

Sarcasm is a type of irony, characterized by an inherent mismatch between the literal interpretation and the intended connotation. Though sarcasm detection in text has been extensively studied, there are situations in which textual input alone might be insufficient to perceive sarcasm. The inclusion of additional contextual cues, such as images, is essential to recognize sarcasm in social media data effectively. This study presents a novel framework for multimodal sarcasm detection that can process input triplets. Two components of these triplets comprise the input text and its associated image, as provided in the datasets. Additionally, a supplementary modality is introduced in the form of descriptive image captions. The motivation behind incorporating this visual semantic representation is to more accurately capture the discrepancies between the textual and visual content, which are fundamental to the sarcasm detection task. The primary contributions of this study are: (1) a robust textual feature extraction branch that utilizes a cross-lingual language model; (2) a visual feature extraction branch that incorporates a self-regulated residual ConvNet integrated with a lightweight spatially aware attention module; (3) an additional modality in the form of image captions generated using an encoder-decoder architecture capable of reading text embedded in images; (4) distinct attention modules to effectively identify the incongruities between the text and two levels of image representations; (5) multi-level cross-domain semantic incongruity representation achieved through feature fusion. Compared with cutting-edge baselines, the proposed model achieves the best accuracy of 92.89% and 64.48%, respectively, on the Twitter multimodal sarcasm and MultiBully datasets.

arxiv情報

著者 Sajal Aggarwal,Ananya Pandey,Dinesh Kumar Vishwakarma
発行日 2024-08-05 16:07:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク