Physically-Based Face Rendering for NIR-VIS Face Recognition

要約

近赤外線 (NIR) から可視 (VIS) への顔のマッチングは、ドメイン ギャップが大きく、モダリティ間のモデル トレーニングに十分なデータが不足しているため、困難です。
この問題を克服するために、ペアのNIR-VIS顔画像生成の新しい方法を提案します。
具体的には、大規模な 2D 顔データセットから 3D 顔の形状と反射率を再構築し、VIS 反射率を NIR 反射率に変換する新しい方法を紹介します。
次に、物理ベースのレンダラーを使用して、NIR および VIS スペクトルのさまざまなポーズとアイデンティティで構成される、高解像度で写真のようにリアルな膨大なデータセットを生成します。
さらに、ID 機能の学習を容易にするために、IDentity ベースの最大平均不一致 (ID-MMD) 損失を提案します。これにより、ドメイン レベルで NIR 画像と VIS 画像の間のモダリティ ギャップが減少するだけでなく、ネットワークが ID に集中するようになります。
ポーズやアクセサリーなど、顔のディテールではなく特徴。
4 つの挑戦的な NIR-VIS 顔認識ベンチマークで実施された広範な実験は、提案された方法が、既存の NIR-VIS 顔認識データセットを必要とせずに最先端 (SOTA) 方法と同等のパフォーマンスを達成できることを示しています。
ターゲットのNIR-VIS顔認識データセットをわずかに微調整することで、私たちの方法はSOTAのパフォーマンスを大幅に上回ることができます.
コードと事前トレーニング済みのモデルは、insightface (https://github.com/deepinsight/insightface/tree/master/recognition) でリリースされます。

要約(オリジナル)

Near infrared (NIR) to Visible (VIS) face matching is challenging due to the significant domain gaps as well as a lack of sufficient data for cross-modality model training. To overcome this problem, we propose a novel method for paired NIR-VIS facial image generation. Specifically, we reconstruct 3D face shape and reflectance from a large 2D facial dataset and introduce a novel method of transforming the VIS reflectance to NIR reflectance. We then use a physically-based renderer to generate a vast, high-resolution and photorealistic dataset consisting of various poses and identities in the NIR and VIS spectra. Moreover, to facilitate the identity feature learning, we propose an IDentity-based Maximum Mean Discrepancy (ID-MMD) loss, which not only reduces the modality gap between NIR and VIS images at the domain level but encourages the network to focus on the identity features instead of facial details, such as poses and accessories. Extensive experiments conducted on four challenging NIR-VIS face recognition benchmarks demonstrate that the proposed method can achieve comparable performance with the state-of-the-art (SOTA) methods without requiring any existing NIR-VIS face recognition datasets. With slightly fine-tuning on the target NIR-VIS face recognition datasets, our method can significantly surpass the SOTA performance. Code and pretrained models are released under the insightface (https://github.com/deepinsight/insightface/tree/master/recognition).

arxiv情報

著者 Yunqi Miao,Alexandros Lattas,Jiankang Deng,Jungong Han,Stefanos Zafeiriou
発行日 2022-11-11 18:48:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク