Noise-robust zero-shot text-to-speech synthesis conditioned on self-supervised speech-representation model with adapters

要約

ゼロショット音声合成 (TTS) 方法は、自己教師あり学習 (SSL) 音声表現を使用して参照音声から抽出された話者埋め込みに基づいており、話者の特性を非常に正確に再現できます。
しかし、このアプローチでは、基準音声にノイズが含まれる場合、音声合成の品質が低下します。
本稿では、ノイズに強いゼロショット TTS 法を提案します。
アダプターを SSL モデルに組み込み、ノイズの多い参照音声を使用して TTS モデルで微調整しました。
さらに、パフォーマンスをさらに向上させるために、スピーチ エンハンスメント (SE) フロントエンドを採用しました。
これらの改善により、私たちが提案する SSL ベースのゼロショット TTS は、ノイズの多い参照音声でも高品質の音声合成を実現しました。
客観的および主観的評価により、提案手法が参照音声の雑音に対して非常に堅牢であり、SEと組み合わせて有効に機能することを確認しました。

要約(オリジナル)

The zero-shot text-to-speech (TTS) method, based on speaker embeddings extracted from reference speech using self-supervised learning (SSL) speech representations, can reproduce speaker characteristics very accurately. However, this approach suffers from degradation in speech synthesis quality when the reference speech contains noise. In this paper, we propose a noise-robust zero-shot TTS method. We incorporated adapters into the SSL model, which we fine-tuned with the TTS model using noisy reference speech. In addition, to further improve performance, we adopted a speech enhancement (SE) front-end. With these improvements, our proposed SSL-based zero-shot TTS achieved high-quality speech synthesis with noisy reference speech. Through the objective and subjective evaluations, we confirmed that the proposed method is highly robust to noise in reference speech, and effectively works in combination with SE.

arxiv情報

著者 Kenichi Fujita,Hiroshi Sato,Takanori Ashihara,Hiroki Kanagawa,Marc Delcroix,Takafumi Moriya,Yusuke Ijima
発行日 2024-01-10 12:21:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク