要約
マルチモーダルな画像とテキストのミームはインターネット上で普及しており、視覚要素とテキスト要素を組み合わせてユーモア、アイデア、または感情を伝えるユニークなコミュニケーション形式として機能します。
ただし、一部のミームは悪意のある方向に進み、憎悪に満ちたコンテンツを促進し、差別を永続させます。
この多様な状況の中で憎しみに満ちたミームを検出することは、テキストと画像の絡み合った意味を理解する必要がある困難な作業です。
この研究では、マルチモーダルなヘイトミーム分類のための ISSUES という名前の新しいアプローチを提案することで、この問題に対処します。
ISSUES は、事前トレーニングされた CLIP ビジョン言語モデルとテキスト反転技術を活用して、ミームのマルチモーダルな意味内容を効果的にキャプチャします。
実験は、私たちの方法が Hateful Memes Challenge と HarMeme データセットで最先端の結果を達成することを示しています。
コードと事前トレーニングされたモデルは、https://github.com/miccunifi/ISSUES で公開されています。
要約(オリジナル)
Multimodal image-text memes are prevalent on the internet, serving as a unique form of communication that combines visual and textual elements to convey humor, ideas, or emotions. However, some memes take a malicious turn, promoting hateful content and perpetuating discrimination. Detecting hateful memes within this multimodal context is a challenging task that requires understanding the intertwined meaning of text and images. In this work, we address this issue by proposing a novel approach named ISSUES for multimodal hateful meme classification. ISSUES leverages a pre-trained CLIP vision-language model and the textual inversion technique to effectively capture the multimodal semantic content of the memes. The experiments show that our method achieves state-of-the-art results on the Hateful Memes Challenge and HarMeme datasets. The code and the pre-trained models are publicly available at https://github.com/miccunifi/ISSUES.
arxiv情報
著者 | Giovanni Burbi,Alberto Baldrati,Lorenzo Agnolucci,Marco Bertini,Alberto Del Bimbo |
発行日 | 2023-10-12 14:38:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google