Face Pyramid Vision Transformer

要約

新しいフェイス ピラミッド ビジョン トランスフォーマー (FPVT) は、顔認識と検証のための識別可能なマルチスケール顔表現を学習するために提案されています。
FPVT では、Face Spatial Reduction Attention (FSRA) レイヤーと次元削減 (FDR) レイヤーを使用して特徴マップをコンパクトにし、計算量を削減します。
ViT の CNN の利点 (共有重み、ローカル コンテキスト、受容フィールドなど) を活用して、低レベルのエッジを高レベルのセマンティック プリミティブにモデル化するために、改良されたパッチ埋め込み (IPE) アルゴリズムが提案されています。
FPVT フレームワーク内で、低レベルの顔情報を学習するために局所情報を抽出する畳み込みフィードフォワード ネットワーク (CFFN) が提案されています。
提案された FPVT は、7 つのベンチマーク データセットで評価され、CNN、純粋な ViT、および畳み込み ViT を含む 10 の既存の最先端の方法と比較されます。
パラメーターが少ないにもかかわらず、FPVT は比較した方法よりも優れたパフォーマンスを示しました。
プロジェクト ページは https://khawar-islam.github.io/fpvt/ にあります。

要約(オリジナル)

A novel Face Pyramid Vision Transformer (FPVT) is proposed to learn a discriminative multi-scale facial representations for face recognition and verification. In FPVT, Face Spatial Reduction Attention (FSRA) and Dimensionality Reduction (FDR) layers are employed to make the feature maps compact, thus reducing the computations. An Improved Patch Embedding (IPE) algorithm is proposed to exploit the benefits of CNNs in ViTs (e.g., shared weights, local context, and receptive fields) to model lower-level edges to higher-level semantic primitives. Within FPVT framework, a Convolutional Feed-Forward Network (CFFN) is proposed that extracts locality information to learn low level facial information. The proposed FPVT is evaluated on seven benchmark datasets and compared with ten existing state-of-the-art methods, including CNNs, pure ViTs, and Convolutional ViTs. Despite fewer parameters, FPVT has demonstrated excellent performance over the compared methods. Project page is available at https://khawar-islam.github.io/fpvt/

arxiv情報

著者 Khawar Islam,Muhammad Zaigham Zaheer,Arif Mahmood
発行日 2022-10-21 14:03:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク