D2Fusion: Dual-domain Fusion with Feature Superposition for Deepfake Detection

要約

ディープフェイクの検出は、社会に引き起こす害を抑えるために重要です。
ただし、現在のディープフェイク検出方法は、本質的な相互作用が不十分なため、異なるドメインにわたってアーティファクト情報を徹底的に探索できません。
これらの相互作用は、異なるドメインにわたる特徴抽出プロセス後の融合と調整を指します。これは、複雑な偽造の手がかりを認識するために重要です。
この作業では、より一般化されたディープファーク検出に焦点を当てて、空間ドメインからのアーティファクトの手がかりのローカルな位置情報をキャプチャするための新しい双方向の注意モジュールを紹介します。
これにより、正確なアーティファクトローカリゼーションが可能になり、アーティファクト機能を備えた粗い処理に対処します。
提案された双方向の注意モジュールが、アーティファクト機能(テクスチャやエッジなど)でグローバルな微妙な偽造情報をキャプチャしない可能性があるという制限にさらに対処するために、周波数領域で微細粒度周波数注意モジュールを使用します。
そうすることで、グローバルで微妙な偽造情報を含む、きめ細かい機能で高周波情報を取得できます。
多様なドメインからのこれらの機能は効果的かつ独立して改善できますが、それらを直接融合させることは、検出パフォーマンスを効果的に改善しません。
したがって、空間ドメインと周波数ドメインからの情報を補完する機能の重ね合わせ戦略を提案します。
この戦略は、機能コンポーネントを波のようなトークンの形式に変えます。これは、フェーズに基づいて更新されるため、本物の機能とアーティファクト機能の区別を増幅できます。
私たちの方法は、さまざまな操作された運用と現実の異常にわたって異常をキャプチャする際に、5つの公開ディープファークデータセットの最先端(SOTA)メソッドに対する大幅な改善を示しています。

要約(オリジナル)

Deepfake detection is crucial for curbing the harm it causes to society. However, current Deepfake detection methods fail to thoroughly explore artifact information across different domains due to insufficient intrinsic interactions. These interactions refer to the fusion and coordination after feature extraction processes across different domains, which are crucial for recognizing complex forgery clues. Focusing on more generalized Deepfake detection, in this work, we introduce a novel bi-directional attention module to capture the local positional information of artifact clues from the spatial domain. This enables accurate artifact localization, thus addressing the coarse processing with artifact features. To further address the limitation that the proposed bi-directional attention module may not well capture global subtle forgery information in the artifact feature (e.g., textures or edges), we employ a fine-grained frequency attention module in the frequency domain. By doing so, we can obtain high-frequency information in the fine-grained features, which contains the global and subtle forgery information. Although these features from the diverse domains can be effectively and independently improved, fusing them directly does not effectively improve the detection performance. Therefore, we propose a feature superposition strategy that complements information from spatial and frequency domains. This strategy turns the feature components into the form of wave-like tokens, which are updated based on their phase, such that the distinctions between authentic and artifact features can be amplified. Our method demonstrates significant improvements over state-of-the-art (SOTA) methods on five public Deepfake datasets in capturing abnormalities across different manipulated operations and real-life.

arxiv情報

著者 Xueqi Qiu,Xingyu Miao,Fan Wan,Haoran Duan,Tejal Shah,Varun Ojhab,Yang Longa,Rajiv Ranjan
発行日 2025-03-21 14:31:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク