Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic Token Prediction

要約

我々は、ニューラル変換器を中心とした新しいテキスト音声合成(TTS)フレームワークを提案する。我々のアプローチは、TTSパイプライン全体を、wav2vec2.0エンベッディングから得られる離散的な意味トークンを利用した、意味レベルのsequence-to-sequence(seq2seq)モデリングと、きめ細かい音響モデリング段階に分割する。ロバストで効率的なアライメントモデリングのために、意味トークン予測にトークントランスデューサというニューラル変換器を採用し、そのハード単調アライメント制約を利用する。その後、非自己回帰的(NAR)音声発生器が、これらの意味トークンから効率的に波形を合成する。さらに、参照音声が各段階における時間的ダイナミクスと音響条件を制御する。この分離されたフレームワークは、各ステージが意味と音響のモデリングに集中できるようにしながら、TTSのトレーニングの複雑さを軽減する。ゼロショット適応型TTSに関する我々の実験結果は、我々のモデルが客観的にも主観的にも、音声品質と話者の類似性の点でベースラインを上回ることを実証している。また、本アプローチの推論速度と韻律制御能力についても掘り下げ、TTSフレームワークにおけるニューラル変換器の可能性を強調する。

要約(オリジナル)

We propose a novel text-to-speech (TTS) framework centered around a neural transducer. Our approach divides the whole TTS pipeline into semantic-level sequence-to-sequence (seq2seq) modeling and fine-grained acoustic modeling stages, utilizing discrete semantic tokens obtained from wav2vec2.0 embeddings. For a robust and efficient alignment modeling, we employ a neural transducer named token transducer for the semantic token prediction, benefiting from its hard monotonic alignment constraints. Subsequently, a non-autoregressive (NAR) speech generator efficiently synthesizes waveforms from these semantic tokens. Additionally, a reference speech controls temporal dynamics and acoustic conditions at each stage. This decoupled framework reduces the training complexity of TTS while allowing each stage to focus on semantic and acoustic modeling. Our experimental results on zero-shot adaptive TTS demonstrate that our model surpasses the baseline in terms of speech quality and speaker similarity, both objectively and subjectively. We also delve into the inference speed and prosody control capabilities of our approach, highlighting the potential of neural transducers in TTS frameworks.

arxiv情報

著者 Minchan Kim,Myeonghun Jeong,Byoung Jin Choi,Semin Kim,Joun Yeop Lee,Nam Soo Kim
発行日 2024-01-03 02:03:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク