FSFM: A Generalizable Face Security Foundation Model via Self-Supervised Facial Representation Learning

要約

この研究では、豊富なラベルのない本当の顔を使って、一般化パフォーマンスに関してさまざまな顔セキュリティ タスクを向上させる、堅牢で転送可能な顔表現をどのように学習するかを問います。
我々は最初の試みを行い、マスク画像モデリング(MIM)とインスタンス識別(ID)の間の相乗効果を活用する、実際の顔画像の基本的な表現を学習するための自己教師あり事前トレーニングフレームワークであるFSFMを提案します。
我々は、MIM のためのさまざまな顔マスキング戦略を検討し、意味のある領域内の一貫性と困難な領域間の一貫性をモデルに明示的に取得させる、シンプルかつ強力な CRFR-P マスキングを提示します。
さらに、MIM と自然に結合する ID ネットワークを考案し、調整された自己蒸留を介して基礎となるローカルからグローバルへの対応を確立します。
これら 3 つの学習目標、つまり 3C により、実際の顔のローカルな特徴とグローバル セマンティクスの両方をエンコードできるようになります。
事前トレーニング後、バニラ ViT は、下流の顔セキュリティ タスク (データセット間ディープフェイク検出、クロスドメイン顔偽装防止、目に見えない拡散顔偽造検出) のためのユニバーサル ビジョン基盤モデルとして機能します。
10 の公開データセットでの広範な実験により、私たちのモデルは教師あり事前トレーニング、視覚および顔の自己教師あり学習芸術よりも優れた伝達力を示し、さらにはタスクに特化した SOTA メソッドよりも優れたパフォーマンスを発揮することが実証されました。

要約(オリジナル)

This work asks: with abundant, unlabeled real faces, how to learn a robust and transferable facial representation that boosts various face security tasks with respect to generalization performance? We make the first attempt and propose a self-supervised pretraining framework to learn fundamental representations of real face images, FSFM, that leverages the synergy between masked image modeling (MIM) and instance discrimination (ID). We explore various facial masking strategies for MIM and present a simple yet powerful CRFR-P masking, which explicitly forces the model to capture meaningful intra-region consistency and challenging inter-region coherency. Furthermore, we devise the ID network that naturally couples with MIM to establish underlying local-to-global correspondence via tailored self-distillation. These three learning objectives, namely 3C, empower encoding both local features and global semantics of real faces. After pretraining, a vanilla ViT serves as a universal vision foundation model for downstream face security tasks: cross-dataset deepfake detection, cross-domain face anti-spoofing, and unseen diffusion facial forgery detection. Extensive experiments on 10 public datasets demonstrate that our model transfers better than supervised pretraining, visual and facial self-supervised learning arts, and even outperforms task-specialized SOTA methods.

arxiv情報

著者 Gaojian Wang,Feng Lin,Tong Wu,Zhenguang Liu,Zhongjie Ba,Kui Ren
発行日 2024-12-16 17:58:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク