Scaling NVIDIA’s Multi-speaker Multi-lingual TTS Systems with Zero-Shot TTS to Indic Languages

要約

このペーパーでは、MMITS-VC (音声クローニングを備えたマルチスピーカー、多言語インド語 TTS) 2024 チャレンジのために NVIDIA が開発した TTS モデルについて説明します。
トラック 1 と 2 では、RAD-MMM を利用して、5 分間のターゲット話者データで追加トレーニングすることにより、少数ショット TTS を実行します。
トラック 3 では、P-Flow を利用して、チャレンジ データセットと外部データセットでトレーニングすることでゼロショット TTS を実行します。
すべての提出物に HiFi-GAN ボコーダーを使用します。
RAD-MMM はトラック 1 と 2 で競争力のあるパフォーマンスを示し、一方、P-Flow はトラック 3 で平均意見スコア (MOS) 4.4、話者類似性スコア (SMOS) 3.62 で第 1 位にランクされています。

要約(オリジナル)

In this paper, we describe the TTS models developed by NVIDIA for the MMITS-VC (Multi-speaker, Multi-lingual Indic TTS with Voice Cloning) 2024 Challenge. In Tracks 1 and 2, we utilize RAD-MMM to perform few-shot TTS by training additionally on 5 minutes of target speaker data. In Track 3, we utilize P-Flow to perform zero-shot TTS by training on the challenge dataset as well as external datasets. We use HiFi-GAN vocoders for all submissions. RAD-MMM performs competitively on Tracks 1 and 2, while P-Flow ranks first on Track 3, with mean opinion score (MOS) 4.4 and speaker similarity score (SMOS) of 3.62.

arxiv情報

著者 Akshit Arora,Rohan Badlani,Sungwon Kim,Rafael Valle,Bryan Catanzaro
発行日 2024-01-29 18:51:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク