Lightweight End-to-end Text-to-speech Synthesis for low resource on-device applications

要約

最近の作品は、エンドツーエンド(E2E)ファッションのテキストからの生の波形を直接モデリングすると、カスケードまたは2段階のアプローチに基づいて、従来の神経テキスト(TTS)システムよりも自然な音声スピーチが生成されることが示されています。
ただし、現在のE2E最先端のモデルは計算上複雑でメモリが消費されるため、低リソースシナリオでのリアルタイムのオフラインオンデバイスアプリケーションには適していません。
この問題に対処するために、最小限の計算リソースを必要とする高品質の音声を生成する軽量のE2E-TTS(LE2E)モデルを提案します。
LJSpeech Datasetで提案されたモデルを評価し、モデルパラメーターの点で最大90ドルの\%$ $が最大90ドル、$ 10 \ Times $がリアルタイムファクターで速くなることを示しています。
さらに、提案されたE2Eトレーニングパラダイムは、2段階のアプローチで訓練された同等のアーキテクチャと比較して、より良い品質を達成することを実証します。
我々の結果は、LE2Eがリアルタイムで高品質の低リソースTTSアプリケーションを開発しているアプリケーションを開発するための有望なアプローチであることを示唆しています。

要約(オリジナル)

Recent works have shown that modelling raw waveform directly from text in an end-to-end (E2E) fashion produces more natural-sounding speech than traditional neural text-to-speech (TTS) systems based on a cascade or two-stage approach. However, current E2E state-of-the-art models are computationally complex and memory-consuming, making them unsuitable for real-time offline on-device applications in low-resource scenarios. To address this issue, we propose a Lightweight E2E-TTS (LE2E) model that generates high-quality speech requiring minimal computational resources. We evaluate the proposed model on the LJSpeech dataset and show that it achieves state-of-the-art performance while being up to $90\%$ smaller in terms of model parameters and $10\times$ faster in real-time-factor. Furthermore, we demonstrate that the proposed E2E training paradigm achieves better quality compared to an equivalent architecture trained in a two-stage approach. Our results suggest that LE2E is a promising approach for developing real-time, high quality, low-resource TTS applications for on-device applications.

arxiv情報

著者 Biel Tura Vecino,Adam Gabryś,Daniel Mątwicki,Andrzej Pomirski,Tom Iddon,Marius Cotescu,Jaime Lorenzo-Trueba
発行日 2025-05-12 16:10:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク