Self-Supervised Frameworks for Speaker Verification via Bootstrapped Positive Sampling

要約

自己学習学習(SSL)の最近の開発は、スピーカー検証(SV)の重要な可能性を実証していますが、監視されたシステムでパフォーマンスギャップを埋めることは継続的な課題です。
標準のSSLフレームワークは、同じオーディオ発話から抽出されたアンカー陽性ペアに依存しています。
したがって、陽性は、広範なデータが増加する場合でも、対応するアンカーのチャネル特性と同様のチャネル特性を持っています。
したがって、この肯定的なサンプリング戦略は、学習された表現の記録ソースに関する情報が多すぎるため、基本的な制限です。
この記事では、SVのSSLフレームワークで適切かつ多様な陽性をサンプリングするためのブートストラップされた手法である、自己監視された陽性サンプリング(SSPS)を紹介します。
SSPSは、これらの擬似陽性物質が同じスピーカーのアイデンティティに属しますが、異なる記録条件に対応すると仮定するため、表現空間のアンカーに近い陽性をサンプリングします。
この方法は、SIMCLR、SWAV、Vicreg、Dinoなどの主要なSSLフレームワークに実装された場合、VoxceleBベンチマークのSVパフォーマンスの一貫した改善を示しています。
SSPS、SIMCLR、およびDINOを使用して、VoxceleB1-Oで2.57%および2.53%EERを達成しました。
SIMCLRは、EERが58%相対的な減少をもたらし、よりシンプルなトレーニングフレームワークでDinoに匹敵するパフォーマンスを獲得します。
さらに、SSPはクラス内の分散を低下させ、データの高度なしでより大きな堅牢性を示しながら、スピーカー表現のチャネル情報を減らします。

要約(オリジナル)

Recent developments in Self-Supervised Learning (SSL) have demonstrated significant potential for Speaker Verification (SV), but closing the performance gap with supervised systems remains an ongoing challenge. Standard SSL frameworks rely on anchor-positive pairs extracted from the same audio utterances. Hence, positives have channel characteristics similar to those of their corresponding anchors, even with extensive data-augmentation. Therefore, this positive sampling strategy is a fundamental limitation as it encodes too much information regarding the recording source in the learned representations. This article introduces Self-Supervised Positive Sampling (SSPS), a bootstrapped technique for sampling appropriate and diverse positives in SSL frameworks for SV. SSPS samples positives close to their anchor in the representation space, as we assume that these pseudo-positives belong to the same speaker identity but correspond to different recording conditions. This method demonstrates consistent improvements in SV performance on VoxCeleb benchmarks when implemented in major SSL frameworks, such as SimCLR, SwAV, VICReg, and DINO. Using SSPS, SimCLR, and DINO achieve 2.57% and 2.53% EER on VoxCeleb1-O. SimCLR yields a 58% relative reduction in EER, getting comparable performance to DINO with a simpler training framework. Furthermore, SSPS lowers intra-class variance and reduces channel information in speaker representations while exhibiting greater robustness without data-augmentation.

arxiv情報

著者 Theo Lepage,Reda Dehak
発行日 2025-01-29 17:08:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク