Synthetic Misinformers: Generating and Combating Multimodal Misinformation

要約

ソーシャル メディアの拡大とマルチメディア コンテンツの普及に伴い、誤った情報の拡散が大きな懸念事項になっています。
これには、画像とそれに付随するテキストの組み合わせが誤解を招く可能性があるかどうかを検出する、マルチモーダル誤情報検出 (MMD) のための効果的な戦略が必要です。
ディープ ニューラル ネットワークのデータ集約型の性質と、手作業による注釈付けの手間のかかるプロセスのために、研究者は、MMD モデルをトレーニングするために、合成マルチモーダル誤情報 (合成誤報者と呼ばれます) を自動的に生成するさまざまな方法を模索してきました。
ただし、現実世界の誤った情報に対する評価が限定的であり、他の人工的誤報との比較が欠如しているため、この分野での進歩を評価することは困難です。
これに対処するために、(1) アウト オブ コンテキスト (OOC) の画像とキャプションのペア、(2) クロスモーダルな名前付きエンティティの不一致 (NEI)、および (3
) ハイブリッド アプローチと現実世界の誤った情報に対してそれらを評価します。
COSMOS ベンチマークを使用します。
比較研究では、私たちが提案した CLIP ベースの Named Entity Swapping が、マルチモーダル精度の点で他の OOC および NEI Misinformers を上回る MMD モデルにつながる可能性があり、ハイブリッド アプローチがさらに高い検出精度につながる可能性があることが示されました。
それにもかかわらず、COSMOS 評価プロトコルからの情報漏えいを軽減した後、低い感度スコアは、タスクが以前の研究が示唆したよりもはるかに困難であることを示しています。
最後に、私たちの調査結果は、NEI ベースの総合的な誤情報提供者は、テキストのみの MMD がマルチモーダル MMD よりも優れている可能性がある単峰性バイアスに苦しむ傾向があることを示しました。

要約(オリジナル)

With the expansion of social media and the increasing dissemination of multimedia content, the spread of misinformation has become a major concern. This necessitates effective strategies for multimodal misinformation detection (MMD) that detect whether the combination of an image and its accompanying text could mislead or misinform. Due to the data-intensive nature of deep neural networks and the labor-intensive process of manual annotation, researchers have been exploring various methods for automatically generating synthetic multimodal misinformation – which we refer to as Synthetic Misinformers – in order to train MMD models. However, limited evaluation on real-world misinformation and a lack of comparisons with other Synthetic Misinformers makes difficult to assess progress in the field. To address this, we perform a comparative study on existing and new Synthetic Misinformers that involves (1) out-of-context (OOC) image-caption pairs, (2) cross-modal named entity inconsistency (NEI) as well as (3) hybrid approaches and we evaluate them against real-world misinformation; using the COSMOS benchmark. The comparative study showed that our proposed CLIP-based Named Entity Swapping can lead to MMD models that surpass other OOC and NEI Misinformers in terms of multimodal accuracy and that hybrid approaches can lead to even higher detection accuracy. Nevertheless, after alleviating information leakage from the COSMOS evaluation protocol, low Sensitivity scores indicate that the task is significantly more challenging than previous studies suggested. Finally, our findings showed that NEI-based Synthetic Misinformers tend to suffer from a unimodal bias, where text-only MMDs can outperform multimodal ones.

arxiv情報

著者 Stefanos-Iordanis Papadopoulos,Christos Koutlis,Symeon Papadopoulos,Panagiotis C. Petrantonakis
発行日 2023-03-02 12:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.MM パーマリンク