Detecting and Grounding Multi-Modal Media Manipulation

要約

タイトル:マルチモーダルメディアマニピュレーションの検出とグランディング

要約:

– 偽情報は深刻な問題になっている。視覚的およびテキスト形式の偽メディアがウェブ上で広く流布している。
– さまざまなディープフェイク検知およびテキストフェイクニュース検知方法が提案されているが、これらはバイナリ分類に基づいた単一のモダリティの偽造にしか適用されておらず、異なるモダリティ間で微妙な捏造痕跡を分析および推論することはできない。
– 本論文では、マルチモーダル偽メディアの新しい研究問題である「Detecting and Grounding Multi-Modal Media Manipulation(DGM ^ 4)」を示す。DGM ^ 4は、マルチモーダルメディアの真偽だけでなく、操作された内容(つまり、画像境界ボックスやテキストトークン)をグラウンディングすることを目的としており、より深いマルチモーダルメディアの操作を推論することが必要とされている。
– 大規模な調査をサポートするために、異なる手法で操作された画像テキストペアを豊富に注釈した最初のDGM ^ 4データセットを構築する。さらに、異なるモダリティ間の微細な相互作用を完全に捕捉するため、新しいHierArchical Multi-modal Manipulation rEasoning tRansformer(HAMMER)を提案する。HAMMERは、1)浅い操作推論としての2つの一次元エンコーダー間の操作に注意を払うマニピュレーションを認識し、2)マルチモーダルアグリゲーターによるモダリティに注意を払うクロスアテンションを実行する。異なるモダリティの相互作用に基づいて、操作検出およびグランディングヘッドを浅いレベルから深いレベルまで統合する。
– 最後に、本研究問題に対し包括的なベンチマークを構築し、厳密な評価指標を設定する。包括的な実験により、当社のモデルの優位性が実証され、マルチモーダルメディアマニピュレーションの将来の研究を促進するためのいくつかの貴重な観察が示される。

要約(オリジナル)

Misinformation has become a pressing issue. Fake media, in both visual and textual forms, is widespread on the web. While various deepfake detection and text fake news detection methods have been proposed, they are only designed for single-modality forgery based on binary classification, let alone analyzing and reasoning subtle forgery traces across different modalities. In this paper, we highlight a new research problem for multi-modal fake media, namely Detecting and Grounding Multi-Modal Media Manipulation (DGM^4). DGM^4 aims to not only detect the authenticity of multi-modal media, but also ground the manipulated content (i.e., image bounding boxes and text tokens), which requires deeper reasoning of multi-modal media manipulation. To support a large-scale investigation, we construct the first DGM^4 dataset, where image-text pairs are manipulated by various approaches, with rich annotation of diverse manipulations. Moreover, we propose a novel HierArchical Multi-modal Manipulation rEasoning tRansformer (HAMMER) to fully capture the fine-grained interaction between different modalities. HAMMER performs 1) manipulation-aware contrastive learning between two uni-modal encoders as shallow manipulation reasoning, and 2) modality-aware cross-attention by multi-modal aggregator as deep manipulation reasoning. Dedicated manipulation detection and grounding heads are integrated from shallow to deep levels based on the interacted multi-modal information. Finally, we build an extensive benchmark and set up rigorous evaluation metrics for this new research problem. Comprehensive experiments demonstrate the superiority of our model; several valuable observations are also revealed to facilitate future research in multi-modal media manipulation.

arxiv情報

著者 Rui Shao,Tianxing Wu,Ziwei Liu
発行日 2023-04-05 16:20:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク