SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection

要約

誤った情報は潜在的に高いリスクを伴うため、蔓延する社会問題です。
本物の画像が偽のテキストで再利用される、アウトオブコンテキスト (OOC) の誤った情報は、視聴者を誤解させる最も簡単かつ効果的な方法の 1 つです。
現在の手法は画像とテキストの一貫性を評価することに重点を置いているが、誤った情報を暴くために不可欠な、その判断に対する説得力のある説明が欠けている。
マルチモーダル大規模言語モデル (MLLM) は豊富な知識と、視覚的な推論と説明生成のための生来の能力を備えていますが、微妙なクロスモーダルの違いを理解して発見するという点ではまだ洗練されていません。
このペーパーでは、OOC 誤情報の検出と説明のために特別に設計された新しいマルチモーダル大規模言語モデルである SNIFFER を紹介します。
SNIFFER は、InstructBLIP 上で 2 段階の命令チューニングを採用しています。
第 1 段階では、一般オブジェクトとニュース ドメインのエンティティとのモデルの概念の調整を洗練し、第 2 段階では言語のみの GPT-4 で生成された OOC 固有の命令データを活用してモデルの識別力を微調整します。
外部ツールと検索によって強化された SNIFFER は、テキストと画像間の不一致を検出するだけでなく、外部の知識をコンテキスト検証に利用します。
私たちの実験では、SNIFFER が元の MLLM を 40% 以上上回り、検出精度において最先端の方法を上回っていることがわかりました。
SNIFFER は、定量的および人的評価によって検証された、正確で説得力のある説明も提供します。

要約(オリジナル)

Misinformation is a prevalent societal issue due to its potential high risks. Out-of-context (OOC) misinformation, where authentic images are repurposed with false text, is one of the easiest and most effective ways to mislead audiences. Current methods focus on assessing image-text consistency but lack convincing explanations for their judgments, which is essential for debunking misinformation. While Multimodal Large Language Models (MLLMs) have rich knowledge and innate capability for visual reasoning and explanation generation, they still lack sophistication in understanding and discovering the subtle crossmodal differences. In this paper, we introduce SNIFFER, a novel multimodal large language model specifically engineered for OOC misinformation detection and explanation. SNIFFER employs two-stage instruction tuning on InstructBLIP. The first stage refines the model’s concept alignment of generic objects with news-domain entities and the second stage leverages language-only GPT-4 generated OOC-specific instruction data to fine-tune the model’s discriminatory powers. Enhanced by external tools and retrieval, SNIFFER not only detects inconsistencies between text and image but also utilizes external knowledge for contextual verification. Our experiments show that SNIFFER surpasses the original MLLM by over 40% and outperforms state-of-the-art methods in detection accuracy. SNIFFER also provides accurate and persuasive explanations as validated by quantitative and human evaluations.

arxiv情報

著者 Peng Qi,Zehong Yan,Wynne Hsu,Mong Li Lee
発行日 2024-03-05 18:04:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.MM パーマリンク