要約
自己学習学習(SSL)は、スピーカー検証(SV)のかなりの進歩をもたらしました。
標準のフレームワークでは、同時の正のサンプリングとデータの高度化を使用して、同じスピーカーのアンカー陽性ペアを生成します。
この戦略は、主にアンカーとポジティブで共有される記録条件からチャネル情報をエンコードするため、これは大きな制限です。
このボトルネックに対処するための新しい肯定的なサンプリング手法を提案します:自己教師の肯定的なサンプリング(SSP)。
特定のアンカーについて、SSPSは、クラスタリング割り当てと正の埋め込みのメモリキューを使用して、潜在空間で、同じスピーカーのアイデンティティの適切な正、つまり異なる記録条件を見つけることを目指しています。
SSPSは、SIMCLRとDINOの両方のSVパフォーマンスを向上させ、2.57%と2.53%のEERに達し、VoxceleB1-OのSOTA SSLメソッドを上回ります。
特に、SIMCLR-SSPSは、スピーカー内の分散を下げることにより58%のEER削減を達成し、Dino-SSPSに匹敵するパフォーマンスを提供します。
要約(オリジナル)
Self-Supervised Learning (SSL) has led to considerable progress in Speaker Verification (SV). The standard framework uses same-utterance positive sampling and data-augmentation to generate anchor-positive pairs of the same speaker. This is a major limitation, as this strategy primarily encodes channel information from the recording condition, shared by the anchor and positive. We propose a new positive sampling technique to address this bottleneck: Self-Supervised Positive Sampling (SSPS). For a given anchor, SSPS aims to find an appropriate positive, i.e., of the same speaker identity but a different recording condition, in the latent space using clustering assignments and a memory queue of positive embeddings. SSPS improves SV performance for both SimCLR and DINO, reaching 2.57% and 2.53% EER, outperforming SOTA SSL methods on VoxCeleb1-O. In particular, SimCLR-SSPS achieves a 58% EER reduction by lowering intra-speaker variance, providing comparable performance to DINO-SSPS.
arxiv情報
著者 | Theo Lepage,Reda Dehak |
発行日 | 2025-05-20 16:19:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google