SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models

要約

Text-to-speech (TTS) を大規模なデータセットにスケーリングすることは、合成音声の多様性と自然さを改善する効果的な方法として実証されています。
高いレベルでは、以前の大規模 TTS モデルは、自動回帰 (AR) ベースのモデル (\textit{例}、VALL-E) または非自動回帰 (NAR) ベースのモデル (\textit{例: VALL-E) に分類できます。
}、NaturalSpeech 2/3)。
これらの作品は優れたパフォーマンスを示していますが、依然として潜在的な弱点があります。
たとえば、AR ベースのモデルは、生成品質が不安定で生成速度が遅いという問題があります。
一方、一部の NAR ベースのモデルは音素レベルの継続時間アライメント情報を必要とするため、データの前処理、モデル設計、損失設計の複雑さが増大します。
この作業では、SimpleSpeech 2 と呼ばれる、シンプルで効率的な非自己回帰 (NAR) TTS フレームワークを実装することで、以前の出版物を基礎にしています。SimpleSpeech 2 は、自己回帰 (AR) メソッドと非自己回帰 (NAR) メソッドの両方の長所を効果的に組み合わせています。
これには次のような重要な利点があります: (1) データ準備の簡素化。
(2) 単純なモデルと損失設計。
(3) 高速な推論速度による安定した高品質な生成パフォーマンス。
以前の出版物と比較して、音声トークナイザーとノイズの多いラベルが TTS パフォーマンスに与える影響の詳細な分析を ({\romannumeral1}) 提示します。
({\romannumeral2}) 4 つの異なるタイプの文長予測子。
({\romannumeral3}) 新しいフローベースのスカラー潜在変換器拡散モデル。
これらの改善により、以前の研究や他の最先端 (SOTA) 大規模 TTS モデルと比較して、生成パフォーマンスと生成速度が大幅に向上していることがわかります。
さらに、SimpleSpeech 2 を多言語音声データセットでトレーニングすることにより、多言語 TTS にシームレスに拡張できることを示します。
デモは {https://dongchaoyang.top/SimpleSpeech2\_demo/} で利用できます。

要約(オリジナル)

Scaling Text-to-speech (TTS) to large-scale datasets has been demonstrated as an effective method for improving the diversity and naturalness of synthesized speech. At the high level, previous large-scale TTS models can be categorized into either Auto-regressive (AR) based (\textit{e.g.}, VALL-E) or Non-auto-regressive (NAR) based models (\textit{e.g.}, NaturalSpeech 2/3). Although these works demonstrate good performance, they still have potential weaknesses. For instance, AR-based models are plagued by unstable generation quality and slow generation speed; meanwhile, some NAR-based models need phoneme-level duration alignment information, thereby increasing the complexity of data pre-processing, model design, and loss design. In this work, we build upon our previous publication by implementing a simple and efficient non-autoregressive (NAR) TTS framework, termed SimpleSpeech 2. SimpleSpeech 2 effectively combines the strengths of both autoregressive (AR) and non-autoregressive (NAR) methods, offering the following key advantages: (1) simplified data preparation; (2) straightforward model and loss design; and (3) stable, high-quality generation performance with fast inference speed. Compared to our previous publication, we present ({\romannumeral1}) a detailed analysis of the influence of speech tokenizer and noisy label for TTS performance; ({\romannumeral2}) four distinct types of sentence duration predictors; ({\romannumeral3}) a novel flow-based scalar latent transformer diffusion model. With these improvement, we show a significant improvement in generation performance and generation speed compared to our previous work and other state-of-the-art (SOTA) large-scale TTS models. Furthermore, we show that SimpleSpeech 2 can be seamlessly extended to multilingual TTS by training it on multilingual speech datasets. Demos are available on: {https://dongchaoyang.top/SimpleSpeech2\_demo/}.

arxiv情報

著者 Dongchao Yang,Rongjie Huang,Yuanyuan Wang,Haohan Guo,Dading Chong,Songxiang Liu,Xixin Wu,Helen Meng
発行日 2024-08-28 07:16:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク