Improving hateful memes detection via learning hatefulness-aware embedding space through retrieval-guided contrastive learning

要約

憎しみに満ちたミームがインターネット上で重大な懸念事項として浮上しています。
画像とテキストの組み合わせであるこれらのミームは、多くの場合、個々の意味とは大きく異なるメッセージを伝えます。
したがって、憎しみに満ちたミームを検出するには、システムが視覚的モダリティとテキストモダリティを共同で理解する必要があります。
しかし、私たちの調査では、既存の CLIP ベースのシステムの埋め込み空間には、ヘイトネスを正しく分類するために不可欠なミームの微妙な違いに対する感度が欠けていることが明らかになりました。
この問題に対処するために、我々は、検索に基づく対照トレーニングを通じて憎しみを意識した埋め込み空間を構築することを提案します。
具体的には、ハードネガサンプルと疑似ゴールドサンプルを利用して埋め込み空間をトレーニングする補助損失を追加します。
私たちのアプローチは、HatefulMemes データセットで AUROC 86.7 の最先端のパフォーマンスを達成します。
特に、私たちのアプローチは、Flamingo や LLaVA のような、より大規模で微調整された大規模マルチモーダル モデルよりも優れたパフォーマンスを発揮します。
最後に、データベースからのトレーニングでは見られないデータに基づいてヘイト分類を行うことができる、検索ベースのヘイト ミーム検出システムを示します。
これにより、開発者は再トレーニングせずに新しいデータを追加するだけでヘイト ミーム検出システムを更新できます。これは、インターネット上のヘイト ミームの絶え間なく進化する環境における実際のサービスにとって望ましい機能です。

要約(オリジナル)

Hateful memes have emerged as a significant concern on the Internet. These memes, which are a combination of image and text, often convey messages vastly different from their individual meanings. Thus, detecting hateful memes requires the system to jointly understand the visual and textual modalities. However, our investigation reveals that the embedding space of existing CLIP-based systems lacks sensitivity to subtle differences in memes that are vital for correct hatefulness classification. To address this issue, we propose constructing a hatefulness-aware embedding space through retrieval-guided contrastive training. Specifically, we add an auxiliary loss that utilizes hard negative and pseudo-gold samples to train the embedding space. Our approach achieves state-of-the-art performance on the HatefulMemes dataset with an AUROC of 86.7. Notably, our approach outperforms much larger fine-tuned Large Multimodal Models like Flamingo and LLaVA. Finally, we demonstrate a retrieval-based hateful memes detection system, which is capable of making hatefulness classification based on data unseen in training from a database. This allows developers to update the hateful memes detection system by simply adding new data without retraining, a desirable feature for real services in the constantly-evolving landscape of hateful memes on the Internet.

arxiv情報

著者 Jingbiao Mei,Jinghong Chen,Weizhe Lin,Bill Byrne,Marcus Tomalin
発行日 2023-11-14 12:14:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク