Incremental FastPitch: Chunk-based High Quality Text to Speech

要約

並列音声合成モデルはリアルタイム音声合成に広く適用されており、従来の自動回帰モデルに比べて制御性が高く、合成速度が非常に速い。並列モデルは多くの面で利点があるが、トランスフォーマなどの完全並列アーキテクチャのため、インクリメンタル合成には不向きである。本研究では、チャンクベースのFFTブロックによるアーキテクチャの改良、受容野に制約のあるチャンクアテンションマスクによる学習、固定サイズの過去のモデル状態による推論により、高品質のメルチャンクをインクリメンタルに生成できる新しいFastPitchの変形であるインクリメンタルFastPitchを提案する。実験の結果、我々の提案は並列FastPitchに匹敵する音声品質を生成することができ、待ち時間は大幅に短縮され、リアルタイム音声アプリケーションの応答時間をさらに短縮できることが示された。

要約(オリジナル)

Parallel text-to-speech models have been widely applied for real-time speech synthesis, and they offer more controllability and a much faster synthesis process compared with conventional auto-regressive models. Although parallel models have benefits in many aspects, they become naturally unfit for incremental synthesis due to their fully parallel architecture such as transformer. In this work, we propose Incremental FastPitch, a novel FastPitch variant capable of incrementally producing high-quality Mel chunks by improving the architecture with chunk-based FFT blocks, training with receptive-field constrained chunk attention masks, and inference with fixed size past model states. Experimental results show that our proposal can produce speech quality comparable to the parallel FastPitch, with a significant lower latency that allows even lower response time for real-time speech applications.

arxiv情報

著者 Muyang Du,Chuan Liu,Junjie Lai
発行日 2024-01-03 14:17:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク