要約
この研究は、2 つの側面を満たす単一の統合されたなりすまし対応話者検証 (SASV) 埋め込みを開発することを目的としています。
まず、ターゲット以外の話者の入力およびターゲット話者のなりすまし入力を拒否することに対処する必要があります。
第二に、自動話者検証 (ASV) と対策 (CM) エンベディングの融合と比較して、競争力のあるパフォーマンスが実証される必要があります。これは、SASV2022 チャレンジで単一のエンベディング ソリューションを大幅に上回りました。
単一の SASV エンベディングのパフォーマンスの低下は、トレーニング データの量が不十分であることと、ASV タスクと CM タスクの独特な性質に起因すると分析します。
この目的を達成するために、多段階トレーニングと損失関数の組み合わせを含む新しいフレームワークを提案します。
いくつかのボコーダーと組み合わせたコピー合成も、スプーフィングされたデータの不足に対処するために利用されます。
実験結果は劇的な改善を示し、SASV2022 チャレンジの評価プロトコルで 1.06% の SASV-EER を達成しました。
要約(オリジナル)
This study aims to develop a single integrated spoofing-aware speaker verification (SASV) embeddings that satisfy two aspects. First, rejecting non-target speakers’ input as well as target speakers’ spoofed inputs should be addressed. Second, competitive performance should be demonstrated compared to the fusion of automatic speaker verification (ASV) and countermeasure (CM) embeddings, which outperformed single embedding solutions by a large margin in the SASV2022 challenge. We analyze that the inferior performance of single SASV embeddings comes from insufficient amount of training data and distinct nature of ASV and CM tasks. To this end, we propose a novel framework that includes multi-stage training and a combination of loss functions. Copy synthesis, combined with several vocoders, is also exploited to address the lack of spoofed data. Experimental results show dramatic improvements, achieving a SASV-EER of 1.06% on the evaluation protocol of the SASV2022 challenge.
arxiv情報
著者 | Sung Hwan Mun,Hye-jin Shim,Hemlata Tak,Xin Wang,Xuechen Liu,Md Sahidullah,Myeonghun Jeong,Min Hyun Han,Massimiliano Todisco,Kong Aik Lee,Junichi Yamagishi,Nicholas Evans,Tomi Kinnunen,Nam Soo Kim,Jee-weon Jung |
発行日 | 2023-05-30 14:15:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google