ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models


このペーパーでは、スピーカー埋め込み抽出器をトレーニングするためのいくつかの目的を持って設計されたツールキットである ESPnet-SPK を紹介します。
まず、話者認識コミュニティの研究者がモデルを簡単に構築できるオープンソース プラットフォームを提供します。
X ベクトルから最新の SKA-TDNN まで、いくつかのモデルを提供しています。
事前トレーニングされた埋め込みエクストラクターには既製の方法でアクセスでき、2 つのタスクとの統合を紹介することでツールキットの多用途性を実証します。
もう 1 つの目標は、さまざまな自己教師あり学習機能と統合することです。
ECAPA-TDNN を備えた WavLM-Large を使用した Vox1-O 評価プロトコルで 0.39% の等しいエラー率を達成する再現可能なレシピをリリースします。


This paper introduces ESPnet-SPK, a toolkit designed with several objectives for training speaker embedding extractors. First, we provide an open-source platform for researchers in the speaker recognition community to effortlessly build models. We provide several models, ranging from x-vector to recent SKA-TDNN. Through the modularized architecture design, variants can be developed easily. We also aspire to bridge developed models with other domains, facilitating the broad research community to effortlessly incorporate state-of-the-art embedding extractors. Pre-trained embedding extractors can be accessed in an off-the-shelf manner and we demonstrate the toolkit’s versatility by showcasing its integration with two tasks. Another goal is to integrate with diverse self-supervised learning features. We release a reproducible recipe that achieves an equal error rate of 0.39% on the Vox1-O evaluation protocol using WavLM-Large with ECAPA-TDNN.


著者 Jee-weon Jung,Wangyou Zhang,Jiatong Shi,Zakaria Aldeneh,Takuya Higuchi,Barry-John Theobald,Ahmed Hussen Abdelaziz,Shinji Watanabe
発行日 2024-01-30 18:18:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク