RWKVTTS: Yet another TTS based on RWKV-7

要約

人間とAIのインタラクションは、直感的で効率的なインターフェイスで繁栄しており、その中でも音声は特に自然で利用しやすいモダリティとして際立っています。近年、Fish-Speech、CosyVoice、MegaTTS 3 などの変換器ベースの音声合成(TTS)システムの進歩により、品質とリアリズムが著しく向上し、TTS 領域が大きく進化しています。本稿では、RWKV-7 ⦅peng2025rwkv ⦆を紹介します。従来のトランスフォーマーモデルとは異なり、RWKV-7はリカレントニューラルネットワークの長所を活用し、高品質の出力を維持しながら、より高い計算効率とスケーラビリティを達成する。我々の包括的なベンチマークにより、RWKV-7は、合成速度、音声の自然さ、リソース効率などの複数の主要な指標において、トランスフォーマーベースのモデルを上回ることが実証された。さらに、多様な言語コンテキストや低リソース環境への適応性を探求し、TTS技術を民主化する可能性を示す。これらの結果は、RWKV-7を強力で革新的な代替手段として位置づけ、実世界のアプリケーションにおいて、より利用しやすく汎用性の高い音声合成ソリューションへの道を開くものである。我々のコードと重みは、https://github.com/yynil/RWKVTTS、https://huggingface.co/spaces/RWKV-Red-Team。

要約(オリジナル)

Human-AI interaction thrives on intuitive and efficient interfaces, among which voice stands out as a particularly natural and accessible modality. Recent advancements in transformer-based text-to-speech (TTS) systems, such as Fish-Speech, CosyVoice, and MegaTTS 3, have delivered remarkable improvements in quality and realism, driving a significant evolution in the TTS domain. In this paper, we introduce RWKV-7 \cite{peng2025rwkv}, a cutting-edge RNN-based architecture tailored for TTS applications. Unlike traditional transformer models, RWKV-7 leverages the strengths of recurrent neural networks to achieve greater computational efficiency and scalability, while maintaining high-quality output. Our comprehensive benchmarks demonstrate that RWKV-7 outperforms transformer-based models across multiple key metrics, including synthesis speed, naturalness of speech, and resource efficiency. Furthermore, we explore its adaptability to diverse linguistic contexts and low-resource environments, showcasing its potential to democratize TTS technology. These findings position RWKV-7 as a powerful and innovative alternative, paving the way for more accessible and versatile voice synthesis solutions in real-world applications.Our code and weights are https://github.com/yynil/RWKVTTS, https://huggingface.co/spaces/RWKV-Red-Team

arxiv情報

著者 Lin yueyu,Liu Xiao
発行日 2025-04-04 09:17:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク