GM-DF: Generalized Multi-Scenario Deepfake Detection

要約

既存の顔偽造検出は通常、単一ドメインでモデルをトレーニングするパラダイムに従っており、これにより、目に見えないシナリオや未知の攻撃が発生した場合の一般化能力が制限されます。
この論文では、複数の顔偽造検出データセットで共同トレーニングした場合のディープフェイク検出モデルの一般化能力を詳しく調査します。
まず、結合されたデータセットでモデルが直接トレーニングされた場合、収集シナリオと生成方法間の不一致により、検出精度が急速に低下することがわかりました。
上記の問題に対処するために、統合モデルによって複数の実世界のシナリオに対応する汎用マルチシナリオ ディープフェイク検出フレームワーク (GM-DF) が提案されています。
まず、ドメイン固有の本物/偽造特徴抽出のためのハイブリッド エキスパート モデリング アプローチを提案します。
さらに、共通性の表現に関しては、CLIP を使用して共通の特徴を抽出し、ドメイン全体で視覚的特徴とテキスト的特徴をより適切に調整します。
一方、マスクされた画像再構成メカニズムを導入して、モデルに豊かな偽造された詳細を強制的にキャプチャします。
最後に、ドメインを意識したメタ学習戦略によってモデルを監視し、汎化能力をさらに強化します。
具体的には、メタテスト ドメインとメタトレイン ドメインの分布を強力に整列させるための新しいドメイン整列損失を設計します。
したがって、更新されたモデルは、複数のデータセットにわたる特定および共通の本物/偽造の特徴の両方を表すことができます。
マルチデータセットトレーニングの研究が不足していることを考慮して、マルチソースデータを活用して、未知のシナリオに対するモデルの汎化能力を公正に評価する新しいベンチマークを確立します。
従来のプロトコルと提案されたベンチマークで実施された 5 つのデータセットに対する定性的および定量的実験の両方が、私たちのアプローチの有効性を示しています。

要約(オリジナル)

Existing face forgery detection usually follows the paradigm of training models in a single domain, which leads to limited generalization capacity when unseen scenarios and unknown attacks occur. In this paper, we elaborately investigate the generalization capacity of deepfake detection models when jointly trained on multiple face forgery detection datasets. We first find a rapid degradation of detection accuracy when models are directly trained on combined datasets due to the discrepancy across collection scenarios and generation methods. To address the above issue, a Generalized Multi-Scenario Deepfake Detection framework (GM-DF) is proposed to serve multiple real-world scenarios by a unified model. First, we propose a hybrid expert modeling approach for domain-specific real/forgery feature extraction. Besides, as for the commonality representation, we use CLIP to extract the common features for better aligning visual and textual features across domains. Meanwhile, we introduce a masked image reconstruction mechanism to force models to capture rich forged details. Finally, we supervise the models via a domain-aware meta-learning strategy to further enhance their generalization capacities. Specifically, we design a novel domain alignment loss to strongly align the distributions of the meta-test domains and meta-train domains. Thus, the updated models are able to represent both specific and common real/forgery features across multiple datasets. In consideration of the lack of study of multi-dataset training, we establish a new benchmark leveraging multi-source data to fairly evaluate the models’ generalization capacity on unseen scenarios. Both qualitative and quantitative experiments on five datasets conducted on traditional protocols as well as the proposed benchmark demonstrate the effectiveness of our approach.

arxiv情報

著者 Yingxin Lai,Zitong Yu,Jing Yang,Bin Li,Xiangui Kang,Linlin Shen
発行日 2024-06-28 17:42:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク