Towards Supervised Performance on Speaker Verification with Self-Supervised Learning by Leveraging Large-Scale ASR Models

要約

自己教師あり学習 (SSL) の最近の進歩により、話者検証 (SV) において有望な結果が示されています。
ただし、監視対象システムとのパフォーマンスの差を縮めることは、依然として継続的な課題です。
いくつかの研究では、大規模な ASR モデルからの音声表現には貴重な話者情報が含まれていることが観察されています。
この研究では、エンドツーエンドのアプローチで SSL 対比目標を使用して、SV 用にこれらのモデルを微調整することの限界を調査します。
次に、擬似ラベルを使用して教師あり損失で事前トレーニングされた WavLM を微調整することにより、SSL コンテキストで話者表現を学習するフレームワークを提案します。
初期の擬似ラベルは SSL DINO ベースのモデルから派生し、モデルの埋め込みをクラスタリングすることによって繰り返し改良されます。
私たちの手法は VoxCeleb1-O で 0.99% の EER を達成し、自己監視型 SV で新しい最先端を確立しました。
このパフォーマンスは 0.94% EER の教師ありベースラインに近いため、この貢献は SSL を使用した SV での教師ありパフォーマンスに向けた一歩となります。

要約(オリジナル)

Recent advancements in Self-Supervised Learning (SSL) have shown promising results in Speaker Verification (SV). However, narrowing the performance gap with supervised systems remains an ongoing challenge. Several studies have observed that speech representations from large-scale ASR models contain valuable speaker information. This work explores the limitations of fine-tuning these models for SV using an SSL contrastive objective in an end-to-end approach. Then, we propose a framework to learn speaker representations in an SSL context by fine-tuning a pre-trained WavLM with a supervised loss using pseudo-labels. Initial pseudo-labels are derived from an SSL DINO-based model and are iteratively refined by clustering the model embeddings. Our method achieves 0.99% EER on VoxCeleb1-O, establishing the new state-of-the-art on self-supervised SV. As this performance is close to our supervised baseline of 0.94% EER, this contribution is a step towards supervised performance on SV with SSL.

arxiv情報

著者 Victor Miara,Theo Lepage,Reda Dehak
発行日 2024-09-16 14:58:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク