kNN Retrieval for Simple and Effective Zero-Shot Multi-speaker Text-to-Speech

要約

最近のゼロショット多話者音声合成(TTS)モデルは目覚ましい成果を上げているが、一般的に、多数の話者からの膨大な書き起こし音声データセットと複雑な学習パイプラインに依存している。一方、自己教師あり学習(SSL)音声特徴量は、TTSの効果的な中間表現として登場した。さらに、SSL音声特徴量は直線的に近い異なる話者からの音声情報を共有し、個々の話者の同一性を維持する。本研究では、kNN-TTSを導入する。kNN-TTSは、SSL特徴量間の線形関係を利用した検索手法を用いた、ゼロショット複数話者のTTSのためのシンプルで効果的なフレームワークである。客観的および主観的評価により、単一話者の書き起こし音声のみで訓練された我々のモデルが、著しく大規模な訓練データセットで訓練された最先端のモデルに匹敵する性能を達成することが示された。必要な学習データが少ないことから、kNN-TTSは低リソースドメインや言語向けの複数話者のTTSシステムの開発に適している。また、きめ細かな音声モーフィングを可能にする補間パラメータも紹介する。デモサンプルはhttps://idiap.github.io/knn-tts。

要約(オリジナル)

While recent zero-shot multi-speaker text-to-speech (TTS) models achieve impressive results, they typically rely on extensive transcribed speech datasets from numerous speakers and intricate training pipelines. Meanwhile, self-supervised learning (SSL) speech features have emerged as effective intermediate representations for TTS. Further, SSL features from different speakers that are linearly close share phonetic information while maintaining individual speaker identity. In this study, we introduce kNN-TTS, a simple and effective framework for zero-shot multi-speaker TTS using retrieval methods which leverage the linear relationships between SSL features. Objective and subjective evaluations show that our models, trained on transcribed speech from a single speaker only, achieve performance comparable to state-of-the-art models that are trained on significantly larger training datasets. The low training data requirements mean that kNN-TTS is well suited for the development of multi-speaker TTS systems for low-resource domains and languages. We also introduce an interpolation parameter which enables fine-grained voice morphing. Demo samples are available at https://idiap.github.io/knn-tts

arxiv情報

著者 Karl El Hajal,Ajinkya Kulkarni,Enno Hermann,Mathew Magimai. -Doss
発行日 2025-02-03 16:47:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS パーマリンク