Latent Multimodal Reconstruction for Misinformation Detection

要約

キャプションが画像の起源、コンテキスト、または意味を誤って伝えた誤った画像などのマルチモーダルの誤った情報は、デジタル時代に成長する課題をもたらします。
ファクトチェッカーをサポートするために、研究者はデータセットの作成と、マルチモーダル誤った情報検出(MMD)の方法の開発に焦点を当てています。
大規模な注釈付きMMDデータセットが不足しているため、最近の研究では、コンテキスト外の画像キャプションペアまたは名前付きエンティティ操作を介して合成トレーニングデータを活用しています。
名前、日付、場所を変更します。
しかし、これらのアプローチは、多くの場合、現実世界の複雑さを反映することができない単純な誤った情報を生み出し、それらについて訓練された検出モデルの堅牢性を制限します。
一方、最近の進歩にもかかわらず、MMDの多様で現実的な合成トレーニングデータを生成するために、大規模な視覚言語モデル(LVLM)が十分に活用されていないままです。
このギャップに対処するために、LVLMで生成された誤った画像を含むトレーニングデータセットである「This!」を紹介します。
さらに、「潜在的なマルチモーダル再構成」(LAMAR)を導入します。これは、真実のキャプションの埋め込みを再構築するようにトレーニングされたネットワークで、検出プロセスに強力な補助信号を提供します。
Lamarを最適化するために、さまざまなトレーニング戦略(エンドツーエンドのトレーニングと大規模なトレーニング前)と統合アプローチ(直接、マスク、ゲート、および注意)を調査します。
広範な実験では、モデルが「これを誤って!」で訓練したことが示されています。
ラマーは、現実世界の誤った情報をよりよく一般化し、ニュースクリッピングとveriteベンチマークの両方で新しい最先端を設定します。
MMDを進めるためのLVLM生成データと再構築に基づくアプローチの可能性を強調します。
コードをhttps://github.com/stevejpapad/miscaptioned-image-reconstructionでリリースします

要約(オリジナル)

Multimodal misinformation, such as miscaptioned images, where captions misrepresent an image’s origin, context, or meaning, poses a growing challenge in the digital age. To support fact-checkers, researchers have been focusing on creating datasets and developing methods for multimodal misinformation detection (MMD). Due to the scarcity of large-scale annotated MMD datasets, recent studies leverage synthetic training data via out-of-context image-caption pairs or named entity manipulations; altering names, dates, and locations. However, these approaches often produce simplistic misinformation that fails to reflect real-world complexity, limiting the robustness of detection models trained on them. Meanwhile, despite recent advancements, Large Vision-Language Models (LVLMs) remain underutilized for generating diverse, realistic synthetic training data for MMD. To address this gap, we introduce ‘MisCaption This!’, a training dataset comprising LVLM-generated miscaptioned images. Additionally, we introduce ‘Latent Multimodal Reconstruction’ (LAMAR), a network trained to reconstruct the embeddings of truthful captions, providing a strong auxiliary signal to the detection process. To optimize LAMAR, we explore different training strategies (end-to-end training and large-scale pre-training) and integration approaches (direct, mask, gate, and attention). Extensive experiments show that models trained on ‘MisCaption This!’ generalize better on real-world misinformation, while LAMAR sets new state-of-the-art on both NewsCLIPpings and VERITE benchmarks; highlighting the potential of LVLM-generated data and reconstruction-based approaches for advancing MMD. We release our code at: https://github.com/stevejpapad/miscaptioned-image-reconstruction

arxiv情報

著者 Stefanos-Iordanis Papadopoulos,Christos Koutlis,Symeon Papadopoulos,Panagiotis C. Petrantonakis
発行日 2025-04-08 13:16:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク