Unified Frequency-Assisted Transformer Framework for Detecting and Grounding Multi-Modal Manipulation

要約

顔の偽造やテキストの誤った情報が広範に拡散しているため、マルチモーダル メディア操作 (DGM^4) の検出と阻止はますます重要になっています。
この論文では、DGM^4 問題に対処するための、UFAFormer という名前の Unified Frequency-Assisted transFormer フレームワークを紹介します。
視覚的偽造特徴を記述するために画像 (RGB) ドメインのみに焦点を当てていたこれまでの最先端の方法とは異なり、補完的な観点として周波数ドメインを追加で導入します。
離散ウェーブレット変換を利用することで、画像をいくつかの周波数サブバンドに分解し、豊富な顔偽造アーティファクトをキャプチャします。
次に、帯域内および帯域間のセルフアテンションを組み込んだ、私たちが提案する周波数エンコーダは、多様なサブバンド内およびサブバンド全体にわたる偽造特徴を明示的に集約します。
さらに、画像領域と周波数領域の間の意味論的な矛盾に対処するために、偽造を認識する相互モジュールが開発され、異種の画像と周波数の特徴の効果的な相互作用をさらに可能にし、その結果、調整された包括的な視覚的偽造表現が得られます。
最後に、視覚的およびテキストの偽造機能に基づいて、モダリティ固有の偽造情報の収集を担当する 2 つの対称クロスモーダル インタラクション モジュールと、両方のモダリティを集約するための融合インタラクション モジュールで構成される統合デコーダを提案します。
提案された統合デコーダは、UFAFormer を統合フレームワークとして定式化し、最終的に全体のアーキテクチャを簡素化し、最適化プロセスを促進します。
いくつかの摂動を含む DGM^4 データセットの実験結果は、以前の方法と比較して私たちのフレームワークの優れたパフォーマンスを実証し、この分野で新しいベンチマークを設定しました。

要約(オリジナル)

Detecting and grounding multi-modal media manipulation (DGM^4) has become increasingly crucial due to the widespread dissemination of face forgery and text misinformation. In this paper, we present the Unified Frequency-Assisted transFormer framework, named UFAFormer, to address the DGM^4 problem. Unlike previous state-of-the-art methods that solely focus on the image (RGB) domain to describe visual forgery features, we additionally introduce the frequency domain as a complementary viewpoint. By leveraging the discrete wavelet transform, we decompose images into several frequency sub-bands, capturing rich face forgery artifacts. Then, our proposed frequency encoder, incorporating intra-band and inter-band self-attentions, explicitly aggregates forgery features within and across diverse sub-bands. Moreover, to address the semantic conflicts between image and frequency domains, the forgery-aware mutual module is developed to further enable the effective interaction of disparate image and frequency features, resulting in aligned and comprehensive visual forgery representations. Finally, based on visual and textual forgery features, we propose a unified decoder that comprises two symmetric cross-modal interaction modules responsible for gathering modality-specific forgery information, along with a fusing interaction module for aggregation of both modalities. The proposed unified decoder formulates our UFAFormer as a unified framework, ultimately simplifying the overall architecture and facilitating the optimization process. Experimental results on the DGM^4 dataset, containing several perturbations, demonstrate the superior performance of our framework compared to previous methods, setting a new benchmark in the field.

arxiv情報

著者 Huan Liu,Zichang Tan,Qiang Chen,Yunchao Wei,Yao Zhao,Jingdong Wang
発行日 2023-09-18 11:06:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク