Parameter-Free Attentive Scoring for Speaker Verification

要約

本論文では、話者検証のためのパラメータフリーのアテンションスコアリングに関する新しい研究を紹介する。パラメータフリーのスコアリングは、付随するパラメトリックスコアリングモデルを必要とせず、話者表現を比較する柔軟性を提供する。Transformerニューラルネットワークの注意成分に触発され、登録セグメントとテストセグメント表現を比較するために、スケールされたドットプロダクト注意メカニズムの変種を提案する。さらに、(i)異なるタイプの正規化、(ii)独立したクエリー/キー推定と結びついたクエリー/キー推定、(iii)キーと値のペア数の変化、(iv)複数の登録発話統計のプールがパフォーマンスに及ぼす影響を調査する。4タスク平均の実験結果から、シンプルなパラメータフリーのアテンションスコアリングメカニズムにより、ベストなコサイン類似度のベースラインよりも平均EERを10%向上させることができることが示された。

要約(オリジナル)

This paper presents a novel study of parameter-free attentive scoring for speaker verification. Parameter-free scoring provides the flexibility of comparing speaker representations without the need of an accompanying parametric scoring model. Inspired by the attention component in Transformer neural networks, we propose a variant of the scaled dot product attention mechanism to compare enrollment and test segment representations. In addition, this work explores the effect on performance of (i) different types of normalization, (ii) independent versus tied query/key estimation, (iii) varying the number of key-value pairs and (iv) pooling multiple enrollment utterance statistics. Experimental results for a 4 task average show that a simple parameter-free attentive scoring mechanism can improve the average EER by 10% over the best cosine similarity baseline.

arxiv情報

著者 Jason Pelecanos,Quan Wang,Yiling Huang,Ignacio Lopez Moreno
発行日 2023-03-06 17:57:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク