Speaker-specific Thresholding for Robust Imposter Identification in Unseen Speaker Recognition

要約

話者識別システムは、トレーニングやテストが行​​われる実験室の条件とは異なる、さまざまな環境に導入されます。
この論文では、まず、等誤り率メトリクスを使用して計算された固定しきい値を使用した一般化の問題を示します。
次に、見えない話者識別における堅牢な詐欺師識別のための、新規で一般化可能な話者固有のしきい値処理手法を導入します。
我々は、目に見えない話者識別において偽者を識別するために、登録音声サンプルを使用して計算できる話者固有の適応閾値を提案します。
さらに、VoxCeleb1、VCTK、および FFSVC 2022 データセットに対する提案手法の有効性を示し、ベースラインの固定しきい値を最大 25% 上回ります。
最後に、提案されたアルゴリズムが一般化可能であることを示し、ResNet50、ECAPA-TDNN、および RawNet3 スピーカー エンコーダでのパフォーマンスを実証します。

要約(オリジナル)

Speaker identification systems are deployed in diverse environments, often different from the lab conditions on which they are trained and tested. In this paper, first, we show the problem of generalization using fixed thresholds computed using the equal error rate metric. Secondly, we introduce a novel and generalizable speaker-specific thresholding technique for robust imposter identification in unseen speaker identification. We propose a speaker-specific adaptive threshold, which can be computed using the enrollment audio samples, for identifying imposters in unseen speaker identification. Furthermore, we show the efficacy of the proposed technique on VoxCeleb1, VCTK and the FFSVC 2022 datasets, beating the baseline fixed thresholding by up to 25%. Finally, we exhibit that the proposed algorithm is also generalizable, demonstrating its performance on ResNet50, ECAPA-TDNN and RawNet3 speaker encoders.

arxiv情報

著者 Ashutosh Chaubey,Sparsh Sinha,Susmita Ghose
発行日 2023-06-01 17:49:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク