Learning Knowledge-based Prompts for Robust 3D Mask Presentation Attack Detection

要約

3Dマスクのプレゼンテーション攻撃の検出は、3Dマスク攻撃の上昇する脅威から顔認識システムを保護するために重要です。
ほとんどの既存の方法は、マルチモーダル機能またはリモートフォト植物学(RPPG)シグナルを利用して、実際の面と3Dマスクを区別しますが、マルチモーダルセンサーに関連する高コストや一般化能力の限られたコストなど、重大な課題に直面しています。
検出関連のテキストの説明は、簡潔で普遍的な情報を提供し、取得するのに費用対効果が高いです。
ただし、3Dマスクプレゼンテーション攻撃の検出のためのビジョン言語マルチモーダル機能の可能性は未踏のままです。
この論文では、3Dマスクプレゼンテーション攻撃検出のための視覚言語モデルの強力な一般化能力を調査するための新しい知識ベースの迅速な学習フレームワークを提案します。
具体的には、私たちのアプローチには、知識グラフから迅速な学習プロセスへのエンティティとトリプルが組み込まれ、事前に訓練されたビジョン言語モデルに埋め込まれた知識を効果的に活用する細かいタスク固有の明示的なプロンプトを生成します。
さらに、異なる入力画像が明確な知識グラフ要素を強調することを考慮すると、視覚的なコンテキストに応じて関連する要素を改良するための注意メカニズムに基づいて視覚固有の知識フィルターを導入します。
さらに、因果グラフ理論の洞察を迅速な学習プロセスに活用して、メソッドの一般化能力をさらに強化します。
トレーニング中に、スプリアス相関除去パラダイムが採用されています。これにより、知識ベースのテキスト機能からのガイダンスを使用して、カテゴリと関連性のあるローカル画像パッチが削除され、カテゴリ関連のローカルパッチと一致する一般化された因果プロンプトの学習を促進します。
実験結果は、提案された方法がベンチマークデータセットで最先端の内部およびクロスセナリオ検出性能を達成することを示しています。

要約(オリジナル)

3D mask presentation attack detection is crucial for protecting face recognition systems against the rising threat of 3D mask attacks. While most existing methods utilize multimodal features or remote photoplethysmography (rPPG) signals to distinguish between real faces and 3D masks, they face significant challenges, such as the high costs associated with multimodal sensors and limited generalization ability. Detection-related text descriptions offer concise, universal information and are cost-effective to obtain. However, the potential of vision-language multimodal features for 3D mask presentation attack detection remains unexplored. In this paper, we propose a novel knowledge-based prompt learning framework to explore the strong generalization capability of vision-language models for 3D mask presentation attack detection. Specifically, our approach incorporates entities and triples from knowledge graphs into the prompt learning process, generating fine-grained, task-specific explicit prompts that effectively harness the knowledge embedded in pre-trained vision-language models. Furthermore, considering different input images may emphasize distinct knowledge graph elements, we introduce a visual-specific knowledge filter based on an attention mechanism to refine relevant elements according to the visual context. Additionally, we leverage causal graph theory insights into the prompt learning process to further enhance the generalization ability of our method. During training, a spurious correlation elimination paradigm is employed, which removes category-irrelevant local image patches using guidance from knowledge-based text features, fostering the learning of generalized causal prompts that align with category-relevant local patches. Experimental results demonstrate that the proposed method achieves state-of-the-art intra- and cross-scenario detection performance on benchmark datasets.

arxiv情報

著者 Fangling Jiang,Qi Li,Bing Liu,Weining Wang,Caifeng Shan,Zhenan Sun,Ming-Hsuan Yang
発行日 2025-05-06 15:09:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク