要約
近年、顔認識 (FR) モデルが最も広く使用されている生体認証ツールとなり、多数のデータセットで印象的な結果を達成しています。
ただし、ハードウェア固有の課題や撮影距離により画像の解像度が低くなることが多く、FR モデルのパフォーマンスに大きな影響を与えます。
この問題に対処するために、非常にリアルな顔を生成する超解像度 (SR) モデルなど、いくつかの解決策が提案されています。
これらの努力にもかかわらず、FR アルゴリズムの大幅な改善は達成されていません。
我々は、単に画質を向上させるのではなく、個人のアイデンティティを保持する高解像度画像を生成することに重点を置き、それによってFRモデルのパフォーマンスを最大化する新しいSRモデルFTLGANを提案します。
結果は説得力があり、現在の最良の最先端モデルよりも d’ の平均値が 21% 高いことを示しており、具体的には 14×14 ピクセルで d’ = 1.099 および AUC = 0.78、d’ = 2.112 および AUC の値を示しています。
28×28 ピクセルの場合は = 0.92、56×56 ピクセルの場合は d’ = 3.049 および AUC = 0.98。
この研究の貢献は、いくつかの主要な分野において重要です。
まず、低解像度画像、特に 14×14、28×28、および 56×56 ピクセルの解像度で、顔認識パフォーマンスの顕著な向上が達成されました。
第 2 に、FTLGAN によって実証された機能強化は、他の比較モデルとは異なり、すべての解像度にわたって一貫した応答を示し、優れたパフォーマンスを均一に提供します。
第三に、三重項損失ロジックを使用した革新的なアプローチが実装されており、実際の画像のみを使用して超解像度モデルのトレーニングを可能にし、現在のモデルと対比し、潜在的な現実世界のアプリケーションを拡張できます。
最後に、この研究では、モデルのトレーニング中に顔認識の品質を損失として統合することで、顔認識システムの分類パフォーマンスを向上させるという課題に特に対処する新しいモデルを紹介します。
要約(オリジナル)
In recent years, facial recognition (FR) models have become the most widely used biometric tool, achieving impressive results on numerous datasets. However, inherent hardware challenges or shooting distances often result in low-resolution images, which significantly impact the performance of FR models. To address this issue, several solutions have been proposed, including super-resolution (SR) models that generate highly realistic faces. Despite these efforts, significant improvements in FR algorithms have not been achieved. We propose a novel SR model FTLGAN, which focuses on generating high-resolution images that preserve individual identities rather than merely improving image quality, thereby maximizing the performance of FR models. The results are compelling, demonstrating a mean value of d’ 21% above the best current state-of-the-art models, specifically having a value of d’ = 1.099 and AUC = 0.78 for 14×14 pixels, d’ = 2.112 and AUC = 0.92 for 28×28 pixels, and d’ = 3.049 and AUC = 0.98 for 56×56 pixels. The contributions of this study are significant in several key areas. Firstly, a notable improvement in facial recognition performance has been achieved in low-resolution images, specifically at resolutions of 14×14, 28×28, and 56×56 pixels. Secondly, the enhancements demonstrated by FTLGAN show a consistent response across all resolutions, delivering outstanding performance uniformly, unlike other comparative models. Thirdly, an innovative approach has been implemented using triplet loss logic, enabling the training of the super-resolution model solely with real images, contrasting with current models, and expanding potential real-world applications. Lastly, this study introduces a novel model that specifically addresses the challenge of improving classification performance in facial recognition systems by integrating facial recognition quality as a loss during model training.
arxiv情報
著者 | Sebastian Pulgar,Domingo Mery |
発行日 | 2024-09-05 13:42:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google