要約
安全な指紋認証システムは、悪意のあるユーザーによる不要なアクセスからユーザーを保護するために、プレゼンテーション攻撃(すなわち、スプーフィング)検出と認識モジュールの両方を含む必要があります。従来、これらのタスクは2つの独立したシステムによって実行されていましたが、最近の研究により、高い精度を維持しつつ、システムの計算負荷を軽減するために、1つの統一されたシステムアーキテクチャを持つことの可能性が示されています。本研究では、ビジョントランスフォーマーアーキテクチャを活用して、なりすまし検出と照合を共同で行い、逐次システム(2つのViTモデルが独立して動作)と統一アーキテクチャ(両方のタスクに対して単一のViTモデル)の両方で、最新鋭(SOTA)モデルとの競争結果を報告しています。ViTモデルはこのタスクに特に適しており、ViTのグローバル埋め込みは認識に有用な特徴を符号化し、一方、個々のローカル埋め込みはなりすまし検出に有用である。我々は、LivDet 2013と2015のCrossMatchセンサーにおいて、平均98.87%の統合マッチング(IM)精度を達成する統一モデルの能力を実証しました。これは、逐次的なデュアルViTシステムで達成された98.95%のIM精度に匹敵しますが、パラメータは50%程度、待ち時間は58%程度となります。
要約(オリジナル)
A secure fingerprint recognition system must contain both a presentation attack (i.e., spoof) detection and recognition module in order to protect users against unwanted access by malicious users. Traditionally, these tasks would be carried out by two independent systems; however, recent studies have demonstrated the potential to have one unified system architecture in order to reduce the computational burdens on the system, while maintaining high accuracy. In this work, we leverage a vision transformer architecture for joint spoof detection and matching and report competitive results with state-of-the-art (SOTA) models for both a sequential system (two ViT models operating independently) and a unified architecture (a single ViT model for both tasks). ViT models are particularly well suited for this task as the ViT’s global embedding encodes features useful for recognition, whereas the individual, local embeddings are useful for spoof detection. We demonstrate the capability of our unified model to achieve an average integrated matching (IM) accuracy of 98.87% across LivDet 2013 and 2015 CrossMatch sensors. This is comparable to IM accuracy of 98.95% of our sequential dual-ViT system, but with ~50% of the parameters and ~58% of the latency.
arxiv情報
著者 | Steven A. Grosz,Kanishka P. Wijewardena,Anil K. Jain |
発行日 | 2023-05-12 16:51:14+00:00 |
arxivサイト | arxiv_id(pdf) |