要約
誤った情報が差し迫った問題になっています。
偽のメディアは、ビジュアルおよびテキストの両方の形式で Web 上に蔓延しています。
さまざまなディープフェイク検出およびテキストフェイクニュース検出方法が提案されていますが、それらはバイナリ分類に基づく単一モダリティの偽造のみを目的として設計されており、異なるモダリティにわたる微妙な偽造の痕跡を分析および推論することは言うまでもありません。
この論文では、マルチモーダル偽メディアの新しい研究課題、すなわちマルチモーダルメディア操作の検出と接地 (DGM^4) に焦点を当てます。
DGM^4 は、マルチモーダル メディアの信頼性を検出するだけでなく、操作されたコンテンツを根拠付けることを目的としています。これには、マルチモーダル メディア操作のより深い推論が必要です。
大規模な調査をサポートするために、最初の DGM^4 データセットを構築します。このデータセットでは、画像とテキストのペアがさまざまなアプローチで操作され、多様な操作の豊富な注釈が付けられます。
さらに、異なるモダリティ間のきめの細かい相互作用を完全に捕捉するための、新しい HierArchical Multi-modal Manipulation rEasoning tTransformer (HAMMER) を提案します。
HAMMER は、1) 浅い操作推論として 2 つのユニモーダル エンコーダー間の操作を意識した対比学習、2) 深い操作推論としてマルチモーダル アグリゲーターによるモダリティを意識したクロス アテンションを実行します。
専用の操作検出および接地ヘッドは、相互作用するマルチモーダル情報に基づいて、浅いレベルから深いレベルまで統合されています。
クロスモーダルセマンティックアラインメントのためのよりきめの細かい対比学習を活用するために、操作を意識した対比損失をローカルビューとさらに統合し、より高度なモデル HAMMER++ を構築します。
最後に、この新しい研究課題に対して広範なベンチマークを構築し、厳密な評価指標を設定します。
包括的な実験により、HAMMER と HAMMER++ の優位性が実証されています。
要約(オリジナル)
Misinformation has become a pressing issue. Fake media, in both visual and textual forms, is widespread on the web. While various deepfake detection and text fake news detection methods have been proposed, they are only designed for single-modality forgery based on binary classification, let alone analyzing and reasoning subtle forgery traces across different modalities. In this paper, we highlight a new research problem for multi-modal fake media, namely Detecting and Grounding Multi-Modal Media Manipulation (DGM^4). DGM^4 aims to not only detect the authenticity of multi-modal media, but also ground the manipulated content, which requires deeper reasoning of multi-modal media manipulation. To support a large-scale investigation, we construct the first DGM^4 dataset, where image-text pairs are manipulated by various approaches, with rich annotation of diverse manipulations. Moreover, we propose a novel HierArchical Multi-modal Manipulation rEasoning tRansformer (HAMMER) to fully capture the fine-grained interaction between different modalities. HAMMER performs 1) manipulation-aware contrastive learning between two uni-modal encoders as shallow manipulation reasoning, and 2) modality-aware cross-attention by multi-modal aggregator as deep manipulation reasoning. Dedicated manipulation detection and grounding heads are integrated from shallow to deep levels based on the interacted multi-modal information. To exploit more fine-grained contrastive learning for cross-modal semantic alignment, we further integrate Manipulation-Aware Contrastive Loss with Local View and construct a more advanced model HAMMER++. Finally, we build an extensive benchmark and set up rigorous evaluation metrics for this new research problem. Comprehensive experiments demonstrate the superiority of HAMMER and HAMMER++.
arxiv情報
著者 | Rui Shao,Tianxing Wu,Jianlong Wu,Liqiang Nie,Ziwei Liu |
発行日 | 2023-09-25 15:05:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google