要約
この論文では、テキスト音声合成 (TTS) モデルのための大規模な多言語音声テキスト共同半教師あり学習フレームワークである Virtuoso を提案します。
既存の多言語 TTS は通常、世界の数千の言語のごく一部にすぎない数十の言語をサポートしています。
多言語 TTS を数百の言語に拡張する際の困難の 1 つは、リソースの少ない言語で高品質の音声テキスト ペア データを収集することです。
この研究では、自動音声認識 (ASR) 用の音声とテキストの事前トレーニング フレームワークである Maestro を音声生成タスクに拡張します。
さまざまな種類の音声およびテキスト データから TTS モデルをトレーニングするために、教師あり (TTS と ASR データのペア) および教師なし (文字起こしされていない音声と話されていないテキスト) データセットを処理するさまざまなトレーニング スキームが設計されています。
実験的評価では、1) Virtuoso でトレーニングされた多言語 TTS モデルは、見られる言語のベースラインよりも大幅に優れた自然さと明瞭度を達成できること、および 2) 高品質のペア TTS データがない目に見えない言語に対して、合理的に理解可能で自然に聞こえる音声を合成できることが示されています。
利用可能。
要約(オリジナル)
This paper proposes Virtuoso, a massively multilingual speech-text joint semi-supervised learning framework for text-to-speech synthesis (TTS) models. Existing multilingual TTS typically supports tens of languages, which are a small fraction of the thousands of languages in the world. One difficulty to scale multilingual TTS to hundreds of languages is collecting high-quality speech-text paired data in low-resource languages. This study extends Maestro, a speech-text joint pretraining framework for automatic speech recognition (ASR), to speech generation tasks. To train a TTS model from various types of speech and text data, different training schemes are designed to handle supervised (paired TTS and ASR data) and unsupervised (untranscribed speech and unspoken text) datasets. Experimental evaluation shows that 1) multilingual TTS models trained on Virtuoso can achieve significantly better naturalness and intelligibility than baseline ones in seen languages, and 2) they can synthesize reasonably intelligible and naturally sounding speech for unseen languages where no high-quality paired TTS data is available.
arxiv情報
著者 | Takaaki Saeki,Heiga Zen,Zhehuai Chen,Nobuyuki Morioka,Gary Wang,Yu Zhang,Ankur Bapna,Andrew Rosenberg,Bhuvana Ramabhadran |
発行日 | 2023-03-15 10:52:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google