Figments and Misalignments: A Framework for Fine-grained Crossmodal Misinformation Detection

要約

タイトル:フィグメンツとミスアライメント:細かい交差モーダルの誤情報検出のための枠組み
要約:
– 社会メディアプラットフォームにおけるマルチメディアコンテンツの普及により、多モーダルな誤情報が広まるようになり、その拡散を防ぐために効果的な戦略の必要性が高まっています。
– この研究では、画像とキャプションが一緒になって誤情報を広める交差モーダル誤情報(CMM)に焦点を当てています。CMMを非対称多モーダル誤情報(AMM)と対比し、AMMは単一のモダリティが偽情報を広める一方、他のモダリティは影響をほとんど受けないという点が異なることを示しています。
– 我々は、AMMがトレーニングや評価プロセスにノイズを加え、単一モダルのバイアスを悪化させ、本来多モダルのタスクであるにもかかわらず、テキストのみまたは画像のみの検出器が多モーダルのカウンターパートを上回ることがあることを指摘しています。
– この問題に対処するために、我々はCMMのための堅牢な評価ベンチマークであるFIGMENTSを収集・編集し、AMMを除外し、モダリティバランスを利用して単一モダルのバイアスを成功裏に軽減することを示しました。FIGMENTSは、真実、文脈外、間違った画像キャプションペアの3つのクラスを含んでおり、細部にわたるCMM検出に向けた第一歩となっています。
– さらに、我々は、クロスモーダルHArd Synthetic MisAlignment(CHASMA)と呼ばれる、合法イメージと偽人間書き込みキャプションの間のクロスモーダル関係を維持する現実的な合成トレーニングデータの生成方法を紹介しています。
– 転送器ベースのアーキテクチャを用いた広範な比較研究を行い、CHASMAを他の生成データセットと組み合わせることで、FIGMENTS上でのバイナリ(+6.26%)およびマルチクラス(+15.8%)設定の両方で全体的なパフォーマンスが一貫して向上したことを示しています。
– ソースコードは、https://github.com/stevejpapad/figments-and-misalignments で公開されています。

要約:
– 社会メディアプラットフォームでのマルチメディアの広がりに伴い、多モーダルな誤情報が広まり、その拡散を防ぐために効果的な戦略の必要性が高まっている。
– 画像とキャプションによる交差モーダルな情報の拡散に焦点を当て、現実世界のケースを用いた誤情報の評価基準FIGMENTSを提供。
– FIGMENTSには、真実、文脈外、間違った画像キャプションペアの3つのクラスがあり、CMM検出に向けた第一歩となる。
– CHASMAと呼ばれる合法イメージと偽人間書き込みキャプションの間のクロスモーダル関係を維持する現実的な合成トレーニングデータの生成方法を紹介。
– 広範な比較研究を行い、CHASMAを他の生成データセットと組み合わせることで、全体的なパフォーマンスが一貫して向上したことを示した。
– ソースコードは、https://github.com/stevejpapad/figments-and-misalignments で公開されている。

要約(オリジナル)

Multimedia content has become ubiquitous on social media platforms, leading to the rise of multimodal misinformation and the urgent need for effective strategies to detect and prevent its spread. This study focuses on CrossModal Misinformation (CMM) where image-caption pairs work together to spread falsehoods. We contrast CMM with Asymmetric Multimodal Misinformation (AMM), where one dominant modality propagates falsehoods while other modalities have little or no influence. We show that AMM adds noise to the training and evaluation process while exacerbating the unimodal bias, where text-only or image-only detectors can seemingly outperform their multimodal counterparts on an inherently multimodal task. To address this issue, we collect and curate FIGMENTS, a robust evaluation benchmark for CMM, which consists of real world cases of misinformation, excludes AMM and utilizes modality balancing to successfully alleviate unimodal bias. FIGMENTS also provides a first step towards fine-grained CMM detection by including three classes: truthful, out-of-context, and miscaptioned image-caption pairs. Furthermore, we introduce a method for generating realistic synthetic training data that maintains crossmodal relations between legitimate images and false human-written captions that we term Crossmodal HArd Synthetic MisAlignment (CHASMA). We conduct extensive comparative study using a Transformer-based architecture. Our results show that incorporating CHASMA in conjunction with other generated datasets consistently improved the overall performance on FIGMENTS in both binary (+6.26%) and multiclass settings (+15.8%).We release our code at: https://github.com/stevejpapad/figments-and-misalignments

arxiv情報

著者 Stefanos-Iordanis Papadopoulos,Christos Koutlis,Symeon Papadopoulos,Panagiotis C. Petrantonakis
発行日 2023-04-27 12:28:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.MM パーマリンク