Domain Generalization via Ensemble Stacking for Face Presentation Attack Detection

要約

顔提示攻撃検出(PAD)は、なりすまし攻撃から顔認識システムを保護する上で極めて重要な役割を果たす。顔PAD手法の設計には大きな進歩が見られますが、未見のテスト領域にうまく汎化できるモデルの開発は依然として大きな課題となっています。さらに、なりすまし攻撃の種類が異なるため、ディープニューラルネットワークの学習に十分なサンプル数を持つデータセットを作成することは、手間のかかる作業です。本研究では、合成データを作成し、顔PADの汎化能力を向上させるための深層学習ベースの統一フレームワークを導入することで、これらの課題を解決します。具体的には、時空間歪み画像と静止画をアルファ合成に基づきブレンドする動画蒸留技術を提案し、合成データを生成する。提案する合成サンプルは、異なるアルファ重みを増加させることで生成できるため、そのような分類器はそれぞれ自分の領域ではエキスパートであるが、他の領域に対しては非エキスパートとなる、スタックド・アンサンブルと呼ばれる特定のタイプのアンサンブル学習を利用して、複数の分類器の学習を行う。そのため、メタ分類器を用いてこれらの専門家から協調的に学習し、アンサンブルを開発する際に、互いの補完的な情報を利用して、未知のターゲットドメインによりよく取り組み、より有用にすることができる。4つのPADデータベースCASIA-MFSD (6.97 %), Replay-Attack (33.49%), MSU-MFSD (4.02%), OULU-NPU (10.91%) に対する半全誤差率 (HTERs) による実験結果より、本手法の堅牢性を示すとともに、大規模合成データによるアンサンブル学習を用いてプレゼンテーション攻撃検知を発展させる新しい可能性を開くことができました。

要約(オリジナル)

Face presentation attack detection (PAD) plays a pivotal role in securing face recognition systems against spoofing attacks. Although great progress has been made in designing face PAD methods, developing a model that can generalize well to an unseen test domain remains a significant challenge. Moreover, due to different types of spoofing attacks, creating a dataset with a sufficient number of samples for training deep neural networks is a laborious task. This work addresses these challenges by creating synthetic data and introducing a deep learning-based unified framework for improving the generalization ability of the face PAD. In particular, synthetic data is generated by proposing a video distillation technique that blends a spatiotemporal warped image with a still image based on alpha compositing. Since the proposed synthetic samples can be generated by increasing different alpha weights, we train multiple classifiers by taking the advantage of a specific type of ensemble learning known as a stacked ensemble, where each such classifier becomes an expert in its own domain but a non-expert to others. Motivated by this, a meta-classifier is employed to learn from these experts collaboratively so that when developing an ensemble, they can leverage complementary information from each other to better tackle or be more useful for an unseen target domain. Experimental results using half total error rates (HTERs) on four PAD databases CASIA-MFSD (6.97 %), Replay-Attack (33.49%), MSU-MFSD (4.02%), and OULU-NPU (10.91%)) demonstrate the robustness of the method and open up new possibilities for advancing presentation attack detection using ensemble learning with large-scale synthetic data.

arxiv情報

著者 Usman Muhammad,Djamila Romaissa Beddiar,Mourad Oussalah
発行日 2023-01-05 16:44:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク