RED-DOT: Multimodal Fact-checking via Relevant Evidence Detection

要約

オンラインの誤った情報は本質的に多峰性であることが多く、テキストと付随する画像の間の誤解を招く関連付けによって引き起こされます。
事実確認プロセスをサポートするために、研究者らは最近、調査対象の画像とテキストのペアに関連する外部情報、証拠を収集および分析する自動マルチモーダル手法を開発しています。
しかし、以前の研究では、収集されたすべての証拠が関連していると想定されていました。
この研究では、各証拠が関連性があるかどうかを識別し、主張を裏付けるか反駁するための「関連証拠検出」(RED) モジュールを導入します。
具体的には、「関連証拠検出指向トランスフォーマー」(RED-DOT) を開発し、複数のアーキテクチャのバリエーション (例: シングルステージまたはデュアルステージ) とメカニズム (例: 「ガイド付き注意」) を調査します。
広範なアブレーションおよび比較実験により、RED-DOT は VERITE ベンチマークで最先端のものと比較して最大 28.5% の大幅な改善を達成することが実証されています。
さらに、証拠の再ランキングと要素ごとのモダリティの融合により、RED-DOT は、多数の証拠や複数のバックボーン エンコーダーを必要とせずに、NewsCLIPings+ で競争力のあるパフォーマンスをさらに向上させることができました。
最後に、私たちの定性分析は、提案された「誘導された注意」モジュールがアーキテクチャの解釈可能性を高める可能性があることを示しています。
コードはhttps://github.com/stevejpapad/relevant-evidence-detectionでリリースされています。

要約(オリジナル)

Online misinformation is often multimodal in nature, i.e., it is caused by misleading associations between texts and accompanying images. To support the fact-checking process, researchers have been recently developing automatic multimodal methods that gather and analyze external information, evidence, related to the image-text pairs under examination. However, prior works assumed all collected evidence to be relevant. In this study, we introduce a ‘Relevant Evidence Detection’ (RED) module to discern whether each piece of evidence is relevant, to support or refute the claim. Specifically, we develop the ‘Relevant Evidence Detection Directed Transformer’ (RED-DOT) and explore multiple architectural variants (e.g., single or dual-stage) and mechanisms (e.g., ‘guided attention’). Extensive ablation and comparative experiments demonstrate that RED-DOT achieves significant improvements over the state-of-the-art on the VERITE benchmark by up to 28.5%. Furthermore, our evidence re-ranking and element-wise modality fusion led to RED-DOT achieving competitive and even improved performance on NewsCLIPings+, without the need for numerous evidence or multiple backbone encoders. Finally, our qualitative analysis demonstrates that the proposed ‘guided attention’ module has the potential to enhance the architecture’s interpretability. We release our code at: https://github.com/stevejpapad/relevant-evidence-detection

arxiv情報

著者 Stefanos-Iordanis Papadopoulos,Christos Koutlis,Symeon Papadopoulos,Panagiotis C. Petrantonakis
発行日 2023-11-16 14:43:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク