要約
マルチメディア コンテンツがソーシャル メディア プラットフォーム上で遍在するようになり、マルチモーダルな誤った情報 (MM) が台頭し、その拡散を検出して防止するための効果的な戦略が緊急に必要とされています。
近年、マルチモーダル誤情報検出 (MMD) の課題は研究者によって大きな注目を集めており、主に、さまざまな深層学習 MMD モデルの開発とともに、アノテーション付き、弱いアノテーション付き、または合成生成されたトレーニング データセットの作成が含まれています。
ただし、単峰性バイアスの問題は見落とされてきました。MMD ベンチマークの特定のパターンやバイアスにより、本質的に多峰性のタスクにおいて、偏りのあるモデルや単峰性のモデルが多峰性のモデルよりも優れたパフォーマンスを発揮する可能性があります。
進捗状況を評価することが難しくなります。
この研究では、広く使用されている MMD ベンチマーク、つまり VMU-Twitter と COSMOS における単峰性バイアスの存在を体系的に調査し、特定します。
この問題に対処するために、実世界のデータを組み込み、「非対称マルチモーダル誤情報」を排除し、「モダリティ バランシング」を利用する MMD 用の「VERification of Image-TEXtpairs」(VERITE)ベンチマークを導入します。
私たちは、Transformer ベースのアーキテクチャと広範な比較研究を実施し、単峰性バイアスに効果的に対処する VERITE の能力を示し、MMD の堅牢な評価フレームワークを実現します。
さらに、正規の画像と人間が書いた誤ったキャプションの間のクロスモーダル関係を維持する現実的な合成トレーニング データを生成するための、Crossmodal HArd Synthetic MisAlignment (CHASMA) と呼ばれる新しい方法を導入します。
トレーニング プロセスで CHASMA を活用することにより、VERITE の予測パフォーマンスが一貫して顕著に向上していることがわかります。
精度が 9.2% 向上しました。
コードは https://github.com/stevejpapad/image-text-verification でリリースされます。
要約(オリジナル)
Multimedia content has become ubiquitous on social media platforms, leading to the rise of multimodal misinformation (MM) and the urgent need for effective strategies to detect and prevent its spread. In recent years, the challenge of multimodal misinformation detection (MMD) has garnered significant attention by researchers and has mainly involved the creation of annotated, weakly annotated, or synthetically generated training datasets, along with the development of various deep learning MMD models. However, the problem of unimodal bias has been overlooked, where specific patterns and biases in MMD benchmarks can result in biased or unimodal models outperforming their multimodal counterparts on an inherently multimodal task; making it difficult to assess progress. In this study, we systematically investigate and identify the presence of unimodal bias in widely-used MMD benchmarks, namely VMU-Twitter and COSMOS. To address this issue, we introduce the ‘VERification of Image-TExt pairs’ (VERITE) benchmark for MMD which incorporates real-world data, excludes ‘asymmetric multimodal misinformation’ and utilizes ‘modality balancing’. We conduct an extensive comparative study with a Transformer-based architecture that shows the ability of VERITE to effectively address unimodal bias, rendering it a robust evaluation framework for MMD. Furthermore, we introduce a new method — termed Crossmodal HArd Synthetic MisAlignment (CHASMA) — for generating realistic synthetic training data that preserve crossmodal relations between legitimate images and false human-written captions. By leveraging CHASMA in the training process, we observe consistent and notable improvements in predictive performance on VERITE; with a 9.2% increase in accuracy. We release our code at: https://github.com/stevejpapad/image-text-verification
arxiv情報
著者 | Stefanos-Iordanis Papadopoulos,Christos Koutlis,Symeon Papadopoulos,Panagiotis C. Petrantonakis |
発行日 | 2023-10-18 13:19:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google