要約
事前トレーニングされた音声基礎モデル (SFM) からの表現は、多くの下流タスクで優れたパフォーマンスを示しています。
ただし、事前にトレーニングされた SFM 表現を話者の音声の類似性評価に組み込むことの潜在的な利点については、十分に調査されていません。
この論文では、話者の声の類似性を評価する際のパフォーマンスを向上させるために、事前トレーニングされた SFM 表現を統合するモデルである SVSNet+ を提案します。
Voice Conversion Challenge 2018 および 2020 データセットの実験結果では、WavLM 表現を組み込んだ SVSNet+ がベースライン モデルと比較して大幅な改善を示していることが示されています。
さらに、ダウンストリーム タスクの小さなデータセットを使用して WavLM を微調整してもパフォーマンスは向上しませんが、同じデータセットを使用して WavLM の加重和表現を学習すると、パフォーマンスが大幅に向上します。
さらに、WavLM が他の SFM に置き換えられた場合でも、SVSNet+ は依然としてベースライン モデルを上回り、強力な汎用化能力を示します。
要約(オリジナル)
Representations from pre-trained speech foundation models (SFMs) have shown impressive performance in many downstream tasks. However, the potential benefits of incorporating pre-trained SFM representations into speaker voice similarity assessment have not been thoroughly investigated. In this paper, we propose SVSNet+, a model that integrates pre-trained SFM representations to improve performance in assessing speaker voice similarity. Experimental results on the Voice Conversion Challenge 2018 and 2020 datasets show that SVSNet+ incorporating WavLM representations shows significant improvements compared to baseline models. In addition, while fine-tuning WavLM with a small dataset of the downstream task does not improve performance, using the same dataset to learn a weighted-sum representation of WavLM can substantially improve performance. Furthermore, when WavLM is replaced by other SFMs, SVSNet+ still outperforms the baseline models and exhibits strong generalization ability.
arxiv情報
著者 | Chun Yin,Tai-Shih Chi,Yu Tsao,Hsin-Min Wang |
発行日 | 2024-06-12 17:37:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google