要約
Text-to-Speech (TTS) テクノロジーの最近の進歩により、主に大規模で高品質の Web データが利用可能になったことにより、自然な音声の英語音声が実現されました。
ただし、他の多くの言語ではそのようなリソースにアクセスできず、代わりに限られたスタジオ品質のデータに依存しています。
この欠乏により、合成音声は、特に低周波文字のバイグラムで、しばしば明瞭性の問題に悩まされることになります。
このホワイトペーパーでは、この課題に対処する 3 つのソリューションを提案します。
まず、言語的または地理的に関連する言語からの高品質データを活用して、ターゲット言語の TTS を改善します。
2 番目に、スタジオ以外の環境で記録された低品質の自動音声認識 (ASR) データを利用します。このデータは、ノイズ除去および音声強調モデルを使用して洗練されます。
3 番目に、合成データを使用して大規模モデルから知識を抽出し、より堅牢な出力を生成します。
ヒンディー語を使った実験では、人間の評価者によって検証されたように、理解度の問題が大幅に軽減されることが実証されました。
私たちはこの方法論を、高品質なデータへのアクセスが制限されている言語にとって実行可能な代替手段として提案し、言語が共有リソースから共同で利益を得ることができるようにします。
要約(オリジナル)
Recent advancements in Text-to-Speech (TTS) technology have led to natural-sounding speech for English, primarily due to the availability of large-scale, high-quality web data. However, many other languages lack access to such resources, relying instead on limited studio-quality data. This scarcity results in synthesized speech that often suffers from intelligibility issues, particularly with low-frequency character bigrams. In this paper, we propose three solutions to address this challenge. First, we leverage high-quality data from linguistically or geographically related languages to improve TTS for the target language. Second, we utilize low-quality Automatic Speech Recognition (ASR) data recorded in non-studio environments, which is refined using denoising and speech enhancement models. Third, we apply knowledge distillation from large-scale models using synthetic data to generate more robust outputs. Our experiments with Hindi demonstrate significant reductions in intelligibility issues, as validated by human evaluators. We propose this methodology as a viable alternative for languages with limited access to high-quality data, enabling them to collectively benefit from shared resources.
arxiv情報
著者 | Srija Anand,Praveen Srinivasa Varadhan,Mehak Singal,Mitesh M. Khapra |
発行日 | 2024-10-23 14:18:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google