Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised Learning for Text-To-Speech

要約

この論文では、テキスト音声合成 (TTS) モデルのための大規模な多言語音声テキスト共同半教師あり学習フレームワークである Virtuoso を提案します。
既存の多言語 TTS は通常、世界の数千の言語のごく一部にすぎない数十の言語をサポートしています。
多言語 TTS を数百の言語に拡張する際の困難の 1 つは、リソースの少ない言語で高品質の音声テキストペアデータを収集することです。
この研究では、自動音声認識 (ASR) 用の音声とテキストの事前トレーニングフレームワークである Maestro を音声生成タスクに拡張します。
さまざまな種類の音声およびテキストデータから TTS モデルをトレーニングするために、教師あり (TTS と ASR データのペア) および教師なし (文字起こしされていない音声と話されていないテキスト) データセットを処理するさまざまなトレーニングスキームが設計されています。
実験的評価では、1) Virtuoso でトレーニングされた多言語 TTS モデルは、見られる言語のベースラインよりも大幅に優れた自然さと明瞭度を達成できること、および 2) 高品質のペア TTS データがない目に見えない言語に対して、合理的に理解可能で自然に聞こえる音声を合成できることが示されています。
利用可能。

要約(オリジナル)

This paper proposes Virtuoso, a massively multilingual speech-text joint semi-supervised learning framework for text-to-speech synthesis (TTS) models. Existing multilingual TTS typically supports tens of languages, which are a small fraction of the thousands of languages in the world. One difficulty to scale multilingual TTS to hundreds of languages is collecting high-quality speech-text paired data in low-resource languages. This study extends Maestro, a speech-text joint pretraining framework for automatic speech recognition (ASR), to speech generation tasks. To train a TTS model from various types of speech and text data, different training schemes are designed to handle supervised (paired TTS and ASR data) and unsupervised (untranscribed speech and unspoken text) datasets. Experimental evaluation shows that 1) multilingual TTS models trained on Virtuoso can achieve significantly better naturalness and intelligibility than baseline ones in seen languages, and 2) they can synthesize reasonably intelligible and naturally sounding speech for unseen languages where no high-quality paired TTS data is available.

arxiv情報

著者	Takaaki Saeki,Heiga Zen,Zhehuai Chen,Nobuyuki Morioka,Gary Wang,Yu Zhang,Ankur Bapna,Andrew Rosenberg,Bhuvana Ramabhadran
発行日	2023-03-15 10:52:03+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised Learning for Text-To-Speech

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー