Suppress and Rebalance: Towards Generalized Multi-Modal Face Anti-Spoofing

要約

Face Anti-Spoofing (FAS) は、プレゼンテーション攻撃から顔認識システムを保護するために重要です。
センサー製造とマルチモーダル学習技術の進歩により、多くのマルチモーダル FAS アプローチが登場しました。
ただし、目に見えない攻撃や展開条件を一般化する際には課題に直面しています。
これらの課題は、(1) モダリティの信頼性の低さ (深度や赤外線などの一部のモダリティ センサーがさまざまな環境で大幅なドメイン シフトを起こし、クロスモーダル特徴融合中に信頼性の低い情報の拡散につながる)、および (2) モダリティの不均衡 (トレーニングが過度に行われる場合) から生じます。
主要なモダリティに依存すると、他のモダリティの収束が妨げられ、主要なモダリティを使用しただけでは区別できない攻撃タイプに対する有効性が低下します。
モダリティの信頼性の低さに対処するために、各モダリティ内で検出された信頼性の低い領域を認識し、信頼性の低い領域が他のモダリティに及ぼす影響を抑制する不確実性ガイド付きクロスアダプター (U-Adapter) を提案します。
モダリティの不均衡については、勾配を適応的に調整することですべてのモダリティの収束速度を再バランスさせる、再バランスモダリティ勾配変調 (ReGrad) 戦略を提案します。
さらに、ドメイン一般化シナリオの下でマルチモーダル FAS パフォーマンスを評価するための最初の大規模ベンチマークを提供します。
広範な実験により、私たちの方法が最先端の方法よりも優れていることが実証されました。
ソースコードとプロトコルは https://github.com/OMGGGGG/mmdg で公開されます。

要約(オリジナル)

Face Anti-Spoofing (FAS) is crucial for securing face recognition systems against presentation attacks. With advancements in sensor manufacture and multi-modal learning techniques, many multi-modal FAS approaches have emerged. However, they face challenges in generalizing to unseen attacks and deployment conditions. These challenges arise from (1) modality unreliability, where some modality sensors like depth and infrared undergo significant domain shifts in varying environments, leading to the spread of unreliable information during cross-modal feature fusion, and (2) modality imbalance, where training overly relies on a dominant modality hinders the convergence of others, reducing effectiveness against attack types that are indistinguishable sorely using the dominant modality. To address modality unreliability, we propose the Uncertainty-Guided Cross-Adapter (U-Adapter) to recognize unreliably detected regions within each modality and suppress the impact of unreliable regions on other modalities. For modality imbalance, we propose a Rebalanced Modality Gradient Modulation (ReGrad) strategy to rebalance the convergence speed of all modalities by adaptively adjusting their gradients. Besides, we provide the first large-scale benchmark for evaluating multi-modal FAS performance under domain generalization scenarios. Extensive experiments demonstrate that our method outperforms state-of-the-art methods. Source code and protocols will be released on https://github.com/OMGGGGG/mmdg.

arxiv情報

著者 Xun Lin,Shuai Wang,Rizhao Cai,Yizhong Liu,Ying Fu,Zitong Yu,Wenzhong Tang,Alex Kot
発行日 2024-03-05 11:59:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク