RED-DOT: Multimodal Fact-checking via Relevant Evidence Detection


この研究では、各証拠が関連性があるかどうかを識別し、主張を裏付けるか反駁するための「関連証拠検出」(RED) モジュールを導入します。
具体的には、「関連証拠検出指向トランスフォーマー」(RED-DOT) を開発し、複数のアーキテクチャのバリエーション (例: シングルステージまたはデュアルステージ) とメカニズム (例: 「ガイド付き注意」) を調査します。
広範なアブレーションおよび比較実験により、RED-DOT は VERITE ベンチマークで最先端のものと比較して最大 28.5% の大幅な改善を達成することが実証されています。
さらに、証拠の再ランキングと要素ごとのモダリティの融合により、RED-DOT は、多数の証拠や複数のバックボーン エンコーダーを必要とせずに、NewsCLIPings+ で競争力のあるパフォーマンスをさらに向上させることができました。


Online misinformation is often multimodal in nature, i.e., it is caused by misleading associations between texts and accompanying images. To support the fact-checking process, researchers have been recently developing automatic multimodal methods that gather and analyze external information, evidence, related to the image-text pairs under examination. However, prior works assumed all collected evidence to be relevant. In this study, we introduce a ‘Relevant Evidence Detection’ (RED) module to discern whether each piece of evidence is relevant, to support or refute the claim. Specifically, we develop the ‘Relevant Evidence Detection Directed Transformer’ (RED-DOT) and explore multiple architectural variants (e.g., single or dual-stage) and mechanisms (e.g., ‘guided attention’). Extensive ablation and comparative experiments demonstrate that RED-DOT achieves significant improvements over the state-of-the-art on the VERITE benchmark by up to 28.5%. Furthermore, our evidence re-ranking and element-wise modality fusion led to RED-DOT achieving competitive and even improved performance on NewsCLIPings+, without the need for numerous evidence or multiple backbone encoders. Finally, our qualitative analysis demonstrates that the proposed ‘guided attention’ module has the potential to enhance the architecture’s interpretability. We release our code at:


著者 Stefanos-Iordanis Papadopoulos,Christos Koutlis,Symeon Papadopoulos,Panagiotis C. Petrantonakis
発行日 2023-11-16 14:43:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, cs.MM パーマリンク