MemeFier: Dual-stage Modality Fusion for Image Meme Classification

要約

【タイトル】MemeFier:画像ミーム分類のための二段階モダリティ融合

【要約】
– インターネットを通じて深刻化するヘイトスピーチの問題
– 画像ミームという新しい形式のデジタルコンテンツが現れ、マルチモーダルな手段でヘイトスピーチが拡散されるようになった
– この種のコンテンツの正確な自動処理、分析、理解は、ヘイトスピーチの拡散を防ぐ取り組みを容易にする
– MemeFierは、デュアルステージモダリティ融合モジュールを利用したインターネット画像ミームの細粒度分類のための深層学習ベースのアーキテクチャを提案している
– 第1フュージョンステージは、ミームのテキストと画像間の重要な関係を捉えるモダリティアラインメント情報を含む特徴ベクトルを生成する
– 第2フュージョンステージは、トークンレベルでインターモダリティ相関を学習し、情報豊富な表現を提供するTransformerエンコーダの力を活用する
– 外部知識を追加の入力として考慮し、背景画像キャプション監視を正規化する要素として考える
– Facebook Hateful Memes、Memotion7k、MultiOFFなど3つの広く採用されているベンチマークに対する広範な実験により、当該手法が最先端のものと競合しており、場合によってはそれを上回ることが示されている。

要約(オリジナル)

Hate speech is a societal problem that has significantly grown through the Internet. New forms of digital content such as image memes have given rise to spread of hate using multimodal means, being far more difficult to analyse and detect compared to the unimodal case. Accurate automatic processing, analysis and understanding of this kind of content will facilitate the endeavor of hindering hate speech proliferation through the digital world. To this end, we propose MemeFier, a deep learning-based architecture for fine-grained classification of Internet image memes, utilizing a dual-stage modality fusion module. The first fusion stage produces feature vectors containing modality alignment information that captures non-trivial connections between the text and image of a meme. The second fusion stage leverages the power of a Transformer encoder to learn inter-modality correlations at the token level and yield an informative representation. Additionally, we consider external knowledge as an additional input, and background image caption supervision as a regularizing component. Extensive experiments on three widely adopted benchmarks, i.e., Facebook Hateful Memes, Memotion7k and MultiOFF, indicate that our approach competes and in some cases surpasses state-of-the-art. Our code is available on GitHub https://github.com/ckoutlis/memefier.

arxiv情報

著者 Christos Koutlis,Manos Schinas,Symeon Papadopoulos
発行日 2023-04-06 07:36:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク