Considerations on the Evaluation of Biometric Quality Assessment Algorithms

要約

品質評価アルゴリズムは、バイオメトリクス認識を目的としたバイオメトリクスサンプルの有用性を推定するために使用することができる。エラー対破棄特性」(EDC)プロット、およびその曲線の「部分曲線下面積」(pAUC)値は、一般に、研究者がそのような品質評価アルゴリズムの予測性能を評価するために使用される。EDC曲線は、「FNMR(False Non Match Rate)」などのエラータイプ、品質評価アルゴリズム、生体認証システム、生体認証サンプルペアにそれぞれ対応する比較のセット、および開始エラーに対応する比較スコアの閾値に依存する。EDC曲線を計算するために、比較は、関連するサンプルの最低品質スコアに基づいて徐々に破棄され、誤差は、残りの比較について計算される。さらに、pAUC値を計算するために、廃棄割合の限界または範囲を選択する必要があり、これは品質評価アルゴリズムを定量的にランク付けするために使用することができます。 この論文では、一般的なEDCの特性、ハードな下限誤差とソフトな上限誤差に基づくpAUC値の解釈可能性の改善、離散ランキングではなく相対ランキングの使用、段階的対線形曲線補間、品質スコアの [0, 100] 整数範囲への正規化など、この種の品質評価アルゴリズム評価に関する様々な詳細を議論・分析する。また、pAUC値による定量的品質評価アルゴリズムのランキングの安定性を、pAUCの廃棄率制限と開始誤差を変化させて分析し、pAUCの廃棄率制限が高い方が好ましいと結論付けています。解析は、合成データと顔画像品質評価シナリオの実データの両方で行われ、EDC評価の一般的なモダリティに依存しない結論に焦点が当てられている。

要約(オリジナル)

Quality assessment algorithms can be used to estimate the utility of a biometric sample for the purpose of biometric recognition. ‘Error versus Discard Characteristic’ (EDC) plots, and ‘partial Area Under Curve’ (pAUC) values of curves therein, are generally used by researchers to evaluate the predictive performance of such quality assessment algorithms. An EDC curve depends on an error type such as the ‘False Non Match Rate’ (FNMR), a quality assessment algorithm, a biometric recognition system, a set of comparisons each corresponding to a biometric sample pair, and a comparison score threshold corresponding to a starting error. To compute an EDC curve, comparisons are progressively discarded based on the associated samples’ lowest quality scores, and the error is computed for the remaining comparisons. Additionally, a discard fraction limit or range must be selected to compute pAUC values, which can then be used to quantitatively rank quality assessment algorithms. This paper discusses and analyses various details for this kind of quality assessment algorithm evaluation, including general EDC properties, interpretability improvements for pAUC values based on a hard lower error limit and a soft upper error limit, the use of relative instead of discrete rankings, stepwise vs. linear curve interpolation, and normalisation of quality scores to a [0, 100] integer range. We also analyse the stability of quantitative quality assessment algorithm rankings based on pAUC values across varying pAUC discard fraction limits and starting errors, concluding that higher pAUC discard fraction limits should be preferred. The analyses are conducted both with synthetic data and with real data for a face image quality assessment scenario, with a focus on general modality-independent conclusions for EDC evaluations.

arxiv情報

著者 Torsten Schlett,Christian Rathgeb,Juan Tapia,Christoph Busch
発行日 2023-06-05 12:24:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク