M3FAS: An Accurate and Robust MultiModal Mobile Face Anti-Spoofing System

要約

フェイス スプーフィングとしても知られるフェイス プレゼンテーション攻撃 (FPA) は、金融詐欺やプライバシー漏洩など、さまざまな悪意のあるアプリケーションを通じて一般の人々にますます懸念をもたらしています。
したがって、顔認識システムを FPA から保護することが最も重要です。
既存の学習ベースの顔のなりすまし防止 (FAS) モデルは、優れた検出パフォーマンスを達成できますが、一般化機能が不足しており、予期しない環境ではパフォーマンスが大幅に低下します。
多くの方法論は、この制限に対処するために、プレゼンテーション攻撃検出 (PAD) 中に補助モダリティ データ (深度マップや赤外線マップなど) を使用しようとします。
ただし、これらの方法は、(1) データ キャプチャに深度カメラや赤外線カメラなどの特定のセンサーが必要であり、市販のモバイル デバイスではめったに利用できないため、制限される可能性があります。また、(2) いずれかのモダリティが欠落している場合、実際のシナリオでは適切に機能しません。
または品質が悪い。
このホワイト ペーパーでは、上記の問題を克服するために、M3FAS という名前の正確で堅牢な MultiModal Mobile Face Anti-Spoofing システムを考案しました。
この作品の革新は、主に次の側面にあります。
(2) クロスモーダルな特徴融合を実行するために、3 つの階層的特徴集約モジュールを備えた新しい 2 ブランチ ニューラル ネットワークを設計します。
(3)。
マルチヘッドトレーニング戦略を提案します。
このモデルは、視覚、音響、融合ヘッドから 3 つの予測を出力し、より柔軟な PAD を可能にします。
広範な実験により、さまざまな困難な実験環境下での M3FAS の精度、堅牢性、および柔軟性が実証されています。

要約(オリジナル)

Face presentation attacks (FPA), also known as face spoofing, have brought increasing concerns to the public through various malicious applications, such as financial fraud and privacy leakage. Therefore, safeguarding face recognition systems against FPA is of utmost importance. Although existing learning-based face anti-spoofing (FAS) models can achieve outstanding detection performance, they lack generalization capability and suffer significant performance drops in unforeseen environments. Many methodologies seek to use auxiliary modality data (e.g., depth and infrared maps) during the presentation attack detection (PAD) to address this limitation. However, these methods can be limited since (1) they require specific sensors such as depth and infrared cameras for data capture, which are rarely available on commodity mobile devices, and (2) they cannot work properly in practical scenarios when either modality is missing or of poor quality. In this paper, we devise an accurate and robust MultiModal Mobile Face Anti-Spoofing system named M3FAS to overcome the issues above. The innovation of this work mainly lies in the following aspects: (1) To achieve robust PAD, our system combines visual and auditory modalities using three pervasively available sensors: camera, speaker, and microphone; (2) We design a novel two-branch neural network with three hierarchical feature aggregation modules to perform cross-modal feature fusion; (3). We propose a multi-head training strategy. The model outputs three predictions from the vision, acoustic, and fusion heads, enabling a more flexible PAD. Extensive experiments have demonstrated the accuracy, robustness, and flexibility of M3FAS under various challenging experimental settings.

arxiv情報

著者 Chenqi Kong,Kexin Zheng,Yibing Liu,Shiqi Wang,Anderson Rocha,Haoliang Li
発行日 2023-01-30 12:37:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク