SelectTTS: Synthesizing Anyone’s Voice via Discrete Unit-Based Frame Selection

要約

見えない話者の音声を合成することは、複数話者のテキスト読み上げ (TTS) における継続的な課題です。
ほとんどのマルチスピーカー TTS モデルは、トレーニング中のスピーカー コンディショニングによるスピーカー特性のモデリングに依存しています。
このアプローチを通じて目に見えない話者の属性をモデル化するには、モデルの複雑さの増加が必要となり、結果を再現して改善することが困難になります。
私たちはこれに代わる簡単な方法を設計します。
我々は、ターゲット話者から適切なフレームを選択し、フレームレベルの自己教師あり学習 (SSL) 機能を使用してデコードする新しい方法である SelectTTS を提案します。
このアプローチは、目に見えない話者の話者の特性を効果的にキャプチャでき、客観的および主観的な測定基準の両方で他のマルチ話者 TTS フレームワークと同等の結果を達成できることを示します。
SelectTTS を使用して、ターゲット話者の音声からのフレーム選択が、モデルの複雑さが低い、目に見えない話者での一般化を達成する直接的な方法であることを示します。
SOTA ベースライン XTTS-v2 および VALL-E よりも優れた話者類似性パフォーマンスを達成し、モデル パラメーターを 8 倍以上削減し、トレーニング データを 270 倍以上削減しました。

要約(オリジナル)

Synthesizing the voices of unseen speakers is a persisting challenge in multi-speaker text-to-speech (TTS). Most multi-speaker TTS models rely on modeling speaker characteristics through speaker conditioning during training. Modeling unseen speaker attributes through this approach has necessitated an increase in model complexity, which makes it challenging to reproduce results and improve upon them. We design a simple alternative to this. We propose SelectTTS, a novel method to select the appropriate frames from the target speaker and decode using frame-level self-supervised learning (SSL) features. We show that this approach can effectively capture speaker characteristics for unseen speakers, and achieves comparable results to other multi-speaker TTS frameworks in both objective and subjective metrics. With SelectTTS, we show that frame selection from the target speaker’s speech is a direct way to achieve generalization in unseen speakers with low model complexity. We achieve better speaker similarity performance than SOTA baselines XTTS-v2 and VALL-E with over an 8x reduction in model parameters and a 270x reduction in training data

arxiv情報

著者 Ismail Rasim Ulgen,Shreeram Suresh Chandra,Junchen Lu,Berrak Sisman
発行日 2024-08-30 17:34:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.AS パーマリンク