FLIP: Cross-domain Face Anti-spoofing with Language Guidance

要約

顔のアンチスプーフィング (FAS) またはプレゼンテーション攻撃の検出は、セキュリティ クリティカルなアプリケーションに導入される顔認識システムの重要なコンポーネントです。
既存の FAS 手法は、目に見えないスプーフィング タイプ、カメラ センサー、環境条件に対する一般化性に乏しいです。
最近、ビジョン トランスフォーマー (ViT) モデルが、画像パッチ間の長距離の依存関係をキャプチャできるため、FAS タスクに効果的であることが示されました。
ただし、ImageNet などの大規模なデータセットで学習された事前トレーニング済みの ViT 重みを適応させるには、適応モジュールまたは補助損失関数が必要になることがよくあります。
この研究では、マルチモーダル (CLIP など) の事前トレーニング済み重みを使用して ViT を初期化すると、FAS タスクの一般化可能性が向上し、これはビジョン言語事前トレーニング (VLP) モデルのゼロショット転送機能と一致することを最初に示します。

次に、自然言語の助けを借りて視覚表現を基礎とする、堅牢なクロスドメイン FAS のための新しいアプローチを提案します。
具体的には、画像表現をクラス記述のアンサンブル(自然言語セマンティクスに基づく)と調整することで、低データ領域における FAS の一般化可能性が向上することを示します。
最後に、機能の一般化をさらに促進し、ソース ドメインとターゲット ドメイン間のギャップを埋めるためのマルチモーダル対比学習戦略を提案します。
3 つの標準プロトコルに関する広範な実験により、私たちの方法が最先端の方法を大幅に上回り、アダプティブ ViT の 5 ショット転送よりも優れたゼロショット転送パフォーマンスを達成できることが実証されました。
コード: https://github.com/koushiksrivats/FLIP

要約(オリジナル)

Face anti-spoofing (FAS) or presentation attack detection is an essential component of face recognition systems deployed in security-critical applications. Existing FAS methods have poor generalizability to unseen spoof types, camera sensors, and environmental conditions. Recently, vision transformer (ViT) models have been shown to be effective for the FAS task due to their ability to capture long-range dependencies among image patches. However, adaptive modules or auxiliary loss functions are often required to adapt pre-trained ViT weights learned on large-scale datasets such as ImageNet. In this work, we first show that initializing ViTs with multimodal (e.g., CLIP) pre-trained weights improves generalizability for the FAS task, which is in line with the zero-shot transfer capabilities of vision-language pre-trained (VLP) models. We then propose a novel approach for robust cross-domain FAS by grounding visual representations with the help of natural language. Specifically, we show that aligning the image representation with an ensemble of class descriptions (based on natural language semantics) improves FAS generalizability in low-data regimes. Finally, we propose a multimodal contrastive learning strategy to boost feature generalization further and bridge the gap between source and target domains. Extensive experiments on three standard protocols demonstrate that our method significantly outperforms the state-of-the-art methods, achieving better zero-shot transfer performance than five-shot transfer of adaptive ViTs. Code: https://github.com/koushiksrivats/FLIP

arxiv情報

著者 Koushik Srivatsan,Muzammal Naseer,Karthik Nandakumar
発行日 2023-09-28 17:53:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク