要約
顔認証システムは、プレゼンテーション攻撃(PA)や悪質なデジタル操作(ディープフェイクなど)から保護するために、顔アンチスプーフィング(FAS)および顔偽造検出が重要な役割を果たす。大規模データや強力なディープモデルを用いた場合の性能は期待できるものの、既存のアプローチの汎化問題は依然として未解決の課題となっています。最近のほとんどのアプローチは、1) ユニモーダルな視覚的外観や生理学的(すなわち、遠隔光電式(rPPG))な手がかり、2) FASや顔面偽造検出のための分離した特徴表現に焦点を当てている。一方では、単峰性の外観とrPPGの特徴は、それぞれ高忠実度の顔3Dマスクとビデオリプレイ攻撃に弱いため、一般的な顔攻撃検出のための信頼性の高いマルチモーダル融合メカニズムを設計することを鼓舞しています。一方、FASと顔面偽造検出タスクにまたがる豊富な共通特徴(例えば、周期的なrPPGリズムとボナフィード用のバニラ外観)があり、マルチタスク学習方式でFASと顔面偽造検出を合同で設計するための確固たる証拠を提供するものである。本論文では、視覚的な外観と生理的なrPPGの手がかりの両方を用いて、初の顔偽装と偽造の共同検出ベンチマークを確立する。本ベンチマークでは、顔の時空間RPPG信号と連続ウェーブレット変換されたRPPG信号の両方を入力とする2分岐生理学的ネットワークを設計し、rPPGの周期性の識別を強化する。モダリティの偏りを軽減し、融合効果を向上させるために、マルチモーダル融合の前に、外観とrPPGの両方の特徴に対して、重み付けバッチとレイヤー正規化を実施する。その結果、単一モダルのモデル(外観またはrPPG)とマルチモダルのモデル(外観+rPPG)の両方が、これら2つのタスクの共同学習によって汎化能力を明らかに改善できることが分かりました。この新しいベンチマークが、FASとディープフェイク検出の両コミュニティの今後の研究を促進することを期待している。
要約(オリジナル)
Face anti-spoofing (FAS) and face forgery detection play vital roles in securing face biometric systems from presentation attacks (PAs) and vicious digital manipulation (e.g., deepfakes). Despite promising performance upon large-scale data and powerful deep models, the generalization problem of existing approaches is still an open issue. Most of recent approaches focus on 1) unimodal visual appearance or physiological (i.e., remote photoplethysmography (rPPG)) cues; and 2) separated feature representation for FAS or face forgery detection. On one side, unimodal appearance and rPPG features are respectively vulnerable to high-fidelity face 3D mask and video replay attacks, inspiring us to design reliable multi-modal fusion mechanisms for generalized face attack detection. On the other side, there are rich common features across FAS and face forgery detection tasks (e.g., periodic rPPG rhythms and vanilla appearance for bonafides), providing solid evidence to design a joint FAS and face forgery detection system in a multi-task learning fashion. In this paper, we establish the first joint face spoofing and forgery detection benchmark using both visual appearance and physiological rPPG cues. To enhance the rPPG periodicity discrimination, we design a two-branch physiological network using both facial spatio-temporal rPPG signal map and its continuous wavelet transformed counterpart as inputs. To mitigate the modality bias and improve the fusion efficacy, we conduct a weighted batch and layer normalization for both appearance and rPPG features before multi-modal fusion. We find that the generalization capacities of both unimodal (appearance or rPPG) and multi-modal (appearance+rPPG) models can be obviously improved via joint training on these two tasks. We hope this new benchmark will facilitate the future research of both FAS and deepfake detection communities.
arxiv情報
著者 | Zitong Yu,Rizhao Cai,Zhi Li,Wenhan Yang,Jingang Shi,Alex C. Kot |
発行日 | 2022-08-10 15:41:48+00:00 |
arxivサイト | arxiv_id(pdf) |