要約
画像内の顔トリミングの品質は、カメラの解像度、距離、照明条件などの多くの要因によって決まります。
このため、現実的なアプリケーションでは、さまざまな性質を持つ顔画像の識別が困難な問題になります。
ただし、既存のアプローチのほとんどは高品質 (HQ) または低品質 (LQ) の画像に特化して設計されており、混合品質の画像ではパフォーマンスが低下します。
さらに、多くの方法では、トレーニングと評価をサポートするために、事前にトレーニングされた特徴抽出器またはその他の補助構造が必要です。
この論文では、HQ 画像と LQ 画像の両方を同時によりよく理解するための鍵は、その品質に応じて異なる学習方法を適用することであると指摘します。
我々は、単一のエンコーダで異なる品質の画像を同時に学習できる、混合品質の顔認識のための新しい品質ガイド付き共同トレーニング アプローチを提案します。
品質分割に基づいて、分類ベースの方法が HQ データ学習に採用されています。
一方、同一性情報が欠落している LQ 画像については、自己教師あり画像対画像対比学習により学習します。
モデルの更新を効果的にキャッチアップし、共同トレーニング シナリオでの対照学習の識別可能性を向上させるために、本物のエンコーダーからの特徴を使用して対照ペアを構成するプロキシ更新リアルタイム キューをさらに提案します。
低品質データセット SCface と Tinyface、混合品質データセット IJB-B、および 5 つの高品質データセットでの実験は、さまざまな品質の顔画像を認識する際の、提案されたアプローチの有効性を示しています。
要約(オリジナル)
The quality of a face crop in an image is decided by many factors such as camera resolution, distance, and illumination condition. This makes the discrimination of face images with different qualities a challenging problem in realistic applications. However, most existing approaches are designed specifically for high-quality (HQ) or low-quality (LQ) images, and the performances would degrade for the mixed-quality images. Besides, many methods ask for pre-trained feature extractors or other auxiliary structures to support the training and the evaluation. In this paper, we point out that the key to better understand both the HQ and the LQ images simultaneously is to apply different learning methods according to their qualities. We propose a novel quality-guided joint training approach for mixed-quality face recognition, which could simultaneously learn the images of different qualities with a single encoder. Based on quality partition, classification-based method is employed for HQ data learning. Meanwhile, for the LQ images which lack identity information, we learn them with self-supervised image-image contrastive learning. To effectively catch up the model update and improve the discriminability of contrastive learning in our joint training scenario, we further propose a proxy-updated real-time queue to compose the contrastive pairs with features from the genuine encoder. Experiments on the low-quality datasets SCface and Tinyface, the mixed-quality dataset IJB-B, and five high-quality datasets demonstrate the effectiveness of our proposed approach in recognizing face images of different qualities.
arxiv情報
| 著者 | Youzhe Song,Feng Wang |
| 発行日 | 2023-12-29 06:56:22+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google