要約
本稿では、Few-shot Learning Evaluation of Universal Representations of Speech (FLEURS) コーパスの音声復元応用版である FLEURS-R を紹介します。
FLEURS-Rは、FLEURSとして102言語のN方向並列音声コーパスを維持しており、音声復元モデルMiipherを適用することで音質と忠実度が向上しています。
FLEURS-R の目的は、より多くの言語で音声技術を進歩させ、低リソース言語でのテキスト読み上げ (TTS) やその他の音声生成タスクを含む研究を促進することです。
復元された音声と新しいコーパスからトレーニングされた TTS ベースライン モデルを使用した包括的な評価により、新しいコーパスでは音声の意味内容を維持しながら音声品質が大幅に向上したことが示されています。
このコーパスは、Hugging Face を通じて公開されます。
要約(オリジナル)
This paper introduces FLEURS-R, a speech restoration applied version of the Few-shot Learning Evaluation of Universal Representations of Speech (FLEURS) corpus. FLEURS-R maintains an N-way parallel speech corpus in 102 languages as FLEURS, with improved audio quality and fidelity by applying the speech restoration model Miipher. The aim of FLEURS-R is to advance speech technology in more languages and catalyze research including text-to-speech (TTS) and other speech generation tasks in low-resource languages. Comprehensive evaluations with the restored speech and TTS baseline models trained from the new corpus show that the new corpus obtained significantly improved speech quality while maintaining the semantic contents of the speech. The corpus is publicly released via Hugging Face.
arxiv情報
著者 | Min Ma,Yuma Koizumi,Shigeki Karita,Heiga Zen,Jason Riesa,Haruko Ishikawa,Michiel Bacchiani |
発行日 | 2024-08-12 15:28:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google