Towards Explainable Harmful Meme Detection through Multimodal Debate between Large Language Models

要約

ソーシャル メディアの時代には、インターネット ミームが氾濫しているため、有害なものを明確に把握し、効果的に特定することが必要です。
ミームには暗黙の意味が埋め込まれており、表面のテキストや画像では明示的に伝えられないため、この作業は大きな課題となります。
しかし、既存の有害なミーム検出方法では、検出の決定をサポートするような暗黙の意味を明らかにする読みやすい説明が提供されていません。
この論文では、無害な立場と有害な立場の両方から矛盾する理論的根拠を推論することによって達成される、有害なミームを検出するための説明可能なアプローチを提案します。
具体的には、テキストの生成と推論に関する大規模言語モデル (LLM) の強力な能力に触発され、まず LLM 間でマルチモーダルな議論を引き起こし、矛盾する議論から導き出される説明を生成します。
次に、有害性推論のディベートジャッジとして小さな言語モデルを微調整し、有害性の理論的根拠とミーム内の固有の多峰性情報の間の多峰性融合を促進することを提案します。
このようにして、私たちのモデルは、無害な議論と有害な議論の両方から生じるマルチモーダルな説明を利用して、複雑で暗黙的な害を示唆するパターンに対して弁証法的推論を実行できるようになります。
3 つの公開ミーム データセットに対する広範な実験により、私たちの有害なミーム検出アプローチが最先端の方法よりもはるかに優れたパフォーマンスを達成し、モデル予測のミームの有害性を説明する優れた能力を示すことが実証されました。

要約(オリジナル)

The age of social media is flooded with Internet memes, necessitating a clear grasp and effective identification of harmful ones. This task presents a significant challenge due to the implicit meaning embedded in memes, which is not explicitly conveyed through the surface text and image. However, existing harmful meme detection methods do not present readable explanations that unveil such implicit meaning to support their detection decisions. In this paper, we propose an explainable approach to detect harmful memes, achieved through reasoning over conflicting rationales from both harmless and harmful positions. Specifically, inspired by the powerful capacity of Large Language Models (LLMs) on text generation and reasoning, we first elicit multimodal debate between LLMs to generate the explanations derived from the contradictory arguments. Then we propose to fine-tune a small language model as the debate judge for harmfulness inference, to facilitate multimodal fusion between the harmfulness rationales and the intrinsic multimodal information within memes. In this way, our model is empowered to perform dialectical reasoning over intricate and implicit harm-indicative patterns, utilizing multimodal explanations originating from both harmless and harmful arguments. Extensive experiments on three public meme datasets demonstrate that our harmful meme detection approach achieves much better performance than state-of-the-art methods and exhibits a superior capacity for explaining the meme harmfulness of the model predictions.

arxiv情報

著者 Hongzhan Lin,Ziyang Luo,Wei Gao,Jing Ma,Bo Wang,Ruichao Yang
発行日 2024-01-24 08:37:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク