ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models

要約

このペーパーでは、スピーカー埋め込み抽出器をトレーニングするためのいくつかの目的を持って設計されたツールキットである ESPnet-SPK を紹介します。
まず、話者認識コミュニティの研究者がモデルを簡単に構築できるオープンソース プラットフォームを提供します。
X ベクトルから最新の SKA-TDNN まで、いくつかのモデルを提供しています。
モジュール化されたアーキテクチャ設計により、バリアントを簡単に開発できます。
また、開発されたモデルを他のドメインと橋渡しし、広範な研究コミュニティが最先端の埋め込み抽出機能を簡単に組み込めるようにすることも目指しています。
事前トレーニングされた埋め込みエクストラクターには既製の方法でアクセスでき、2 つのタスクとの統合を紹介することでツールキットの多用途性を実証します。
もう 1 つの目標は、さまざまな自己教師あり学習機能と統合することです。
ECAPA-TDNN を備えた WavLM-Large を使用した Vox1-O 評価プロトコルで 0.39% の等しいエラー率を達成する再現可能なレシピをリリースします。

要約(オリジナル)

This paper introduces ESPnet-SPK, a toolkit designed with several objectives for training speaker embedding extractors. First, we provide an open-source platform for researchers in the speaker recognition community to effortlessly build models. We provide several models, ranging from x-vector to recent SKA-TDNN. Through the modularized architecture design, variants can be developed easily. We also aspire to bridge developed models with other domains, facilitating the broad research community to effortlessly incorporate state-of-the-art embedding extractors. Pre-trained embedding extractors can be accessed in an off-the-shelf manner and we demonstrate the toolkit’s versatility by showcasing its integration with two tasks. Another goal is to integrate with diverse self-supervised learning features. We release a reproducible recipe that achieves an equal error rate of 0.39% on the Vox1-O evaluation protocol using WavLM-Large with ECAPA-TDNN.

arxiv情報

著者 Jee-weon Jung,Wangyou Zhang,Jiatong Shi,Zakaria Aldeneh,Takuya Higuchi,Barry-John Theobald,Ahmed Hussen Abdelaziz,Shinji Watanabe
発行日 2024-01-30 18:18:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク