Multi-source Semantic Graph-based Multimodal Sarcasm Explanation Generation

要約

マルチモーダル皮肉説明 (MuSE) は、新しいながらも挑戦的なタスクであり、マルチモーダルなソーシャル投稿 (画像とそのキャプション) に対して、なぜ皮肉が含まれているかを説明する自然言語文を生成することを目的としています。
既存の先駆的研究は、BART バックボーンで大きな成功を収めていますが、視覚特徴空間とデコーダの意味空間の間のギャップ、画像のオブジェクトレベルのメタデータ、および潜在的な外部知識を見落としています。
これらの制限を解決するために、この研究では、TEAM と名付けられた、新しいマルチソース意味論的グラフベースのマルチモーダル皮肉説明スキームを提案します。
特に、TEAM は、入力画像から従来のグローバルな視覚特徴の代わりに、オブジェクト レベルのセマンティック メタデータを抽出します。
一方、TEAM は、ConceptNet を利用して、入力テキストと抽出されたオブジェクトのメタデータに関連する外部の知識概念を取得します。
その後、TEAM は、皮肉な推論を容易にするために、マルチソース (つまり、キャプション、オブジェクトのメタデータ、外部知識) の意味関係を包括的に特徴付けるマルチソース セマンティック グラフを導入します。
一般に公開されたデータセットに対する広範な実験により、最先端の手法に対するモデルの優位性がさらに検証されています。

要約(オリジナル)

Multimodal Sarcasm Explanation (MuSE) is a new yet challenging task, which aims to generate a natural language sentence for a multimodal social post (an image as well as its caption) to explain why it contains sarcasm. Although the existing pioneer study has achieved great success with the BART backbone, it overlooks the gap between the visual feature space and the decoder semantic space, the object-level metadata of the image, as well as the potential external knowledge. To solve these limitations, in this work, we propose a novel mulTi-source sEmantic grAph-based Multimodal sarcasm explanation scheme, named TEAM. In particular, TEAM extracts the object-level semantic meta-data instead of the traditional global visual features from the input image. Meanwhile, TEAM resorts to ConceptNet to obtain the external related knowledge concepts for the input text and the extracted object meta-data. Thereafter, TEAM introduces a multi-source semantic graph that comprehensively characterize the multi-source (i.e., caption, object meta-data, external knowledge) semantic relations to facilitate the sarcasm reasoning. Extensive experiments on a public released dataset MORE verify the superiority of our model over cutting-edge methods.

arxiv情報

著者 Liqiang Jing,Xuemeng Song,Kun Ouyang,Mengzhao Jia,Liqiang Nie
発行日 2023-06-29 03:26:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク