要約
最近の作品は、エンドツーエンド(E2E)ファッションのテキストからの生の波形を直接モデリングすると、カスケードまたは2段階のアプローチに基づいて、従来の神経テキスト(TTS)システムよりも自然な音声スピーチが生成されることが示されています。
ただし、現在のE2E最先端のモデルは計算上複雑でメモリが消費されるため、低リソースシナリオでのリアルタイムのオフラインオンデバイスアプリケーションには適していません。
この問題に対処するために、最小限の計算リソースを必要とする高品質の音声を生成する軽量のE2E-TTS(LE2E)モデルを提案します。
LJSpeech Datasetで提案されたモデルを評価し、モデルパラメーターの点で最大90ドルの\%$ $が最大90ドル、$ 10 \ Times $がリアルタイムファクターで速くなることを示しています。
さらに、提案されたE2Eトレーニングパラダイムは、2段階のアプローチで訓練された同等のアーキテクチャと比較して、より良い品質を達成することを実証します。
我々の結果は、LE2Eがリアルタイムで高品質の低リソースTTSアプリケーションを開発しているアプリケーションを開発するための有望なアプローチであることを示唆しています。
要約(オリジナル)
Recent works have shown that modelling raw waveform directly from text in an end-to-end (E2E) fashion produces more natural-sounding speech than traditional neural text-to-speech (TTS) systems based on a cascade or two-stage approach. However, current E2E state-of-the-art models are computationally complex and memory-consuming, making them unsuitable for real-time offline on-device applications in low-resource scenarios. To address this issue, we propose a Lightweight E2E-TTS (LE2E) model that generates high-quality speech requiring minimal computational resources. We evaluate the proposed model on the LJSpeech dataset and show that it achieves state-of-the-art performance while being up to $90\%$ smaller in terms of model parameters and $10\times$ faster in real-time-factor. Furthermore, we demonstrate that the proposed E2E training paradigm achieves better quality compared to an equivalent architecture trained in a two-stage approach. Our results suggest that LE2E is a promising approach for developing real-time, high quality, low-resource TTS applications for on-device applications.
arxiv情報
著者 | Biel Tura Vecino,Adam Gabryś,Daniel Mątwicki,Andrzej Pomirski,Tom Iddon,Marius Cotescu,Jaime Lorenzo-Trueba |
発行日 | 2025-05-12 16:10:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google