Face Forgery Detection with Elaborate Backbone

要約

顔偽造検出 (FFD)、またはディープフェイク検出は、デジタル顔が本物か偽物かを判断することを目的としています。
多様な偽造パターンを持つ異なる顔合成アルゴリズムにより、FFD モデルはトレーニング データセット内の特定のパターンにオーバーフィットすることが多く、その結果、他の目に見えない偽造に対する一般化が不十分になります。
この厳しい課題には、FFD モデルが複雑な顔の特徴を表現し、微妙な偽造の手がかりを抽出する強力な機能を備えていることが必要です。
以前の FFD モデルは既存のバックボーンを直接使用して顔の偽造の手がかりを表現および抽出していましたが、バックボーンの重要な役割はしばしば見落とされており、特にバックボーンの知識と能力が FFD の課題に対処するには不十分であり、一般化が必然的に制限されています。
したがって、バックボーンの事前トレーニング構成を統合し、バックボーンの事前トレーニングと微調整から判別結果の推論に至るまで、完全な FFD ワークフローを再検討して実用的なソリューションを模索することが重要です。
具体的には、FFD タスクにおけるさまざまな構成のバックボーンの重要な寄与を分析し、実際の顔データセットでの自己教師あり学習を備えた ViT ネットワークを活用してバックボーンを事前トレーニングし、優れた顔表現機能を装備することを提案します。
次に、競争的な学習メカニズム内で多様な偽造の手がかりを抽出するバックボーンの能力を強化する、競争的なバックボーン微調整フレームワークを構築します。
さらに、予測の信頼性を利用して推論の信頼性を向上させる閾値最適化メカニズムを考案します。
包括的な実験により、精巧なバックボーンを備えた FFD モデルが、FFD および追加の顔関連タスク (プレゼンテーション攻撃検出など) において優れたパフォーマンスを達成することが実証されました。
コードとモデルは https://github.com/zhenglab/FFDBackbone で入手できます。

要約(オリジナル)

Face Forgery Detection (FFD), or Deepfake detection, aims to determine whether a digital face is real or fake. Due to different face synthesis algorithms with diverse forgery patterns, FFD models often overfit specific patterns in training datasets, resulting in poor generalization to other unseen forgeries. This severe challenge requires FFD models to possess strong capabilities in representing complex facial features and extracting subtle forgery cues. Although previous FFD models directly employ existing backbones to represent and extract facial forgery cues, the critical role of backbones is often overlooked, particularly as their knowledge and capabilities are insufficient to address FFD challenges, inevitably limiting generalization. Therefore, it is essential to integrate the backbone pre-training configurations and seek practical solutions by revisiting the complete FFD workflow, from backbone pre-training and fine-tuning to inference of discriminant results. Specifically, we analyze the crucial contributions of backbones with different configurations in FFD task and propose leveraging the ViT network with self-supervised learning on real-face datasets to pre-train a backbone, equipping it with superior facial representation capabilities. We then build a competitive backbone fine-tuning framework that strengthens the backbone’s ability to extract diverse forgery cues within a competitive learning mechanism. Moreover, we devise a threshold optimization mechanism that utilizes prediction confidence to improve the inference reliability. Comprehensive experiments demonstrate that our FFD model with the elaborate backbone achieves excellent performance in FFD and extra face-related tasks, i.e., presentation attack detection. Code and models are available at https://github.com/zhenglab/FFDBackbone.

arxiv情報

著者 Zonghui Guo,Yingjie Liu,Jie Zhang,Haiyong Zheng,Shiguang Shan
発行日 2024-09-25 13:57:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク