FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing

要約

タイトル: FM-ViT: 柔軟なモーダル・ビジョン・トランスフォーマーによる顔のアンチスプーフィング
要約:
– RGB-Dなどの多様なモーダル・センサーの普及に伴い、顔のアンチスプーフィングの研究が急増しています。
– 現在の多様なモーダルの顔攻撃検出のフレームワークには、2つの欠点があります。
1. 多様なモーダルの融合に基づくフレームワークは、訓練入力と一致するモダリティを提供する必要があり、展開シナリオを制限する。
2. 高精度のデータセットにおけるConvNetベースのモデルの性能は、ますます限られるようになっている。
– この研究では、利用可能な多様なモーダル・データの支援を受けて、任意の単一のモーダル(つまり、RGB)攻撃シナリオを柔軟に対象とするための、純粋なトランスフォーマーベースのフレームワーク、Flexible Modal Vision Transformer(FM-ViT)を提供しました。
– 具体的には、FM-ViTはそれぞれのモーダルに特定のブランチを保持して、さまざまなモーダル情報をキャプチャし、クロスモーダル・トランスフォーマー・ブロック(CMTB)を導入しました。これには、マルチヘッド相互注意(MMA)とフュージョン-アテンション(MFA)という2つの連続した注意が含まれ、それぞれのモーダルブランチをガイドして情報的なパッチ・トークンから潜在的な特徴を抽出し、自分自身のCLSトークンのモーダル情報を豊富にすることで、モダリティに依存しない生存特徴を学習します。
– 実験の結果、FM-ViTに基づく単一のモデルは、さまざまなモーダルのサンプルを柔軟に評価できるだけでなく、既存の単一モーダルフレームワークよりも大幅に優れており、FLOPsおよびモデルパラメータを小さく導入された多様なフレームワークに近づいています。

要約(オリジナル)

The availability of handy multi-modal (i.e., RGB-D) sensors has brought about a surge of face anti-spoofing research. However, the current multi-modal face presentation attack detection (PAD) has two defects: (1) The framework based on multi-modal fusion requires providing modalities consistent with the training input, which seriously limits the deployment scenario. (2) The performance of ConvNet-based model on high fidelity datasets is increasingly limited. In this work, we present a pure transformer-based framework, dubbed the Flexible Modal Vision Transformer (FM-ViT), for face anti-spoofing to flexibly target any single-modal (i.e., RGB) attack scenarios with the help of available multi-modal data. Specifically, FM-ViT retains a specific branch for each modality to capture different modal information and introduces the Cross-Modal Transformer Block (CMTB), which consists of two cascaded attentions named Multi-headed Mutual-Attention (MMA) and Fusion-Attention (MFA) to guide each modal branch to mine potential features from informative patch tokens, and to learn modality-agnostic liveness features by enriching the modal information of own CLS token, respectively. Experiments demonstrate that the single model trained based on FM-ViT can not only flexibly evaluate different modal samples, but also outperforms existing single-modal frameworks by a large margin, and approaches the multi-modal frameworks introduced with smaller FLOPs and model parameters.

arxiv情報

著者 Ajian Liu,Zichang Tan,Zitong Yu,Chenxu Zhao,Jun Wan,Yanyan Liang,Zhen Lei,Du Zhang,Stan Z. Li,Guodong Guo
発行日 2023-05-05 04:28:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク