要約
マルチバンド生成と逆短時間フーリエ変換を使用して、軽量なエンドツーエンドのテキスト読み上げモデルを提案します。
私たちのモデルは、高品質のエンドツーエンドのテキスト読み上げモデルである VITS に基づいていますが、より効率的な推論のために 2 つの変更を採用しています。
変換、および 2) 固定またはトレーニング可能な合成フィルターを使用したマルチバンド生成を使用して、波形を生成します。
最適化または知識の蒸留を個別に使用して 2 つのカスケード コンポーネントをトレーニングする従来の軽量モデルとは異なり、私たちの方法はエンド ツー エンドの最適化のメリットを最大限に享受します。
実験結果は、私たちのモデルが VITS によって合成されたものと同じくらい自然な音声を合成し、VITS よりも 4.1 倍高速な Intel Core i7 CPU で 0.066 のリアルタイム係数を達成したことを示しています。
さらに、モデルの小さいバージョンは、自然さと推論速度の両方に関して、軽量のベースライン モデルよりも大幅に優れていました。
コードとオーディオのサンプルは、https://github.com/MasayaKawamura/MB-iSTFT-VITS から入手できます。
要約(オリジナル)
We propose a lightweight end-to-end text-to-speech model using multi-band generation and inverse short-time Fourier transform. Our model is based on VITS, a high-quality end-to-end text-to-speech model, but adopts two changes for more efficient inference: 1) the most computationally expensive component is partially replaced with a simple inverse short-time Fourier transform, and 2) multi-band generation, with fixed or trainable synthesis filters, is used to generate waveforms. Unlike conventional lightweight models, which employ optimization or knowledge distillation separately to train two cascaded components, our method enjoys the full benefits of end-to-end optimization. Experimental results show that our model synthesized speech as natural as that synthesized by VITS, while achieving a real-time factor of 0.066 on an Intel Core i7 CPU, 4.1 times faster than VITS. Moreover, a smaller version of the model significantly outperformed a lightweight baseline model with respect to both naturalness and inference speed. Code and audio samples are available from https://github.com/MasayaKawamura/MB-iSTFT-VITS.
arxiv情報
著者 | Masaya Kawamura,Yuma Shirahata,Ryuichi Yamamoto,Kentaro Tachibana |
発行日 | 2023-02-21 16:28:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google