Considerations on the Evaluation of Biometric Quality Assessment Algorithms


「エラー対廃棄特性」(EDC) プロット、およびその中の曲線の「部分曲線下面積」(pAUC) 値は、一般に研究者によってこのような品質評価アルゴリズムの予測パフォーマンスを評価するために使用されます。
EDC 曲線は、「偽非一致率」(FNMR) などのエラー タイプ、品質評価アルゴリズム、生体認証認識システム、生体認証サンプルのペアにそれぞれ対応する比較のセット、および生体認証サンプルのペアに対応する比較スコアしきい値によって異なります。
EDC 曲線を計算するには、関連するサンプルの最も低い品質スコアに基づいて比較が段階的に破棄され、残りの比較について誤差が計算されます。
さらに、pAUC 値を計算するには、廃棄率の制限または範囲を選択する必要があります。これを使用して、品質評価アルゴリズムを定量的にランク付けできます。
この論文では、一般的な EDC 特性、ハード誤差下限とソフト上限に基づく pAUC 値の解釈可能性の向上、離散的ランキングではなく相対的ランキングの使用、段階的ランキングなど、この種の品質評価アルゴリズムの評価に関するさまざまな詳細について議論および分析しています。
vs. 線形曲線補間、および品質スコアの [0, 100] 整数範囲への正規化。
また、さまざまな pAUC 廃棄画分制限および開始エラーにわたる pAUC 値に基づく定量的品質評価アルゴリズムのランキングの安定性も分析し、より高い pAUC 廃棄画分制限が優先されるべきであると結論付けています。
分析は、EDC 評価に関する一般的なモダリティに依存しない結論に焦点を当てて、合成データと実際の顔画像および指紋データの両方を使用して実行されます。
さまざまな EDC の代替案についても説明します。


Quality assessment algorithms can be used to estimate the utility of a biometric sample for the purpose of biometric recognition. ‘Error versus Discard Characteristic’ (EDC) plots, and ‘partial Area Under Curve’ (pAUC) values of curves therein, are generally used by researchers to evaluate the predictive performance of such quality assessment algorithms. An EDC curve depends on an error type such as the ‘False Non Match Rate’ (FNMR), a quality assessment algorithm, a biometric recognition system, a set of comparisons each corresponding to a biometric sample pair, and a comparison score threshold corresponding to a starting error. To compute an EDC curve, comparisons are progressively discarded based on the associated samples’ lowest quality scores, and the error is computed for the remaining comparisons. Additionally, a discard fraction limit or range must be selected to compute pAUC values, which can then be used to quantitatively rank quality assessment algorithms. This paper discusses and analyses various details for this kind of quality assessment algorithm evaluation, including general EDC properties, interpretability improvements for pAUC values based on a hard lower error limit and a soft upper error limit, the use of relative instead of discrete rankings, stepwise vs. linear curve interpolation, and normalisation of quality scores to a [0, 100] integer range. We also analyse the stability of quantitative quality assessment algorithm rankings based on pAUC values across varying pAUC discard fraction limits and starting errors, concluding that higher pAUC discard fraction limits should be preferred. The analyses are conducted both with synthetic data and with real face image and fingerprint data, with a focus on general modality-independent conclusions for EDC evaluations. Various EDC alternatives are discussed as well.


著者 Torsten Schlett,Christian Rathgeb,Juan Tapia,Christoph Busch
発行日 2023-10-31 14:22:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク