要約
この研究では、7,000 以上の言語で音声を生成できる単一のテキスト音声合成システムを構築するという難しいタスクに取り組みますが、その多くは従来の TTS 開発に十分なデータが不足しています。
大規模な多言語事前トレーニングと言語表現を近似するためのメタ学習の新しい統合を活用することで、私たちのアプローチは、利用可能なデータがなくても言語でのゼロショット音声合成を可能にします。
私たちは、多様な言語環境にわたる客観的な測定と人による評価を通じてシステムのパフォーマンスを検証します。
コードとモデルを公開することで、限られた言語リソースを持つコミュニティに力を与え、音声技術の分野でさらなるイノベーションを促進することを目指しています。
要約(オリジナル)
In this work, we take on the challenging task of building a single text-to-speech synthesis system that is capable of generating speech in over 7000 languages, many of which lack sufficient data for traditional TTS development. By leveraging a novel integration of massively multilingual pretraining and meta learning to approximate language representations, our approach enables zero-shot speech synthesis in languages without any available data. We validate our system’s performance through objective measures and human evaluation across a diverse linguistic landscape. By releasing our code and models publicly, we aim to empower communities with limited linguistic resources and foster further innovation in the field of speech technology.
arxiv情報
| 著者 | Florian Lux,Sarina Meyer,Lyonel Behringer,Frank Zalkow,Phat Do,Matt Coler,Emanuël A. P. Habets,Ngoc Thang Vu |
| 発行日 | 2024-06-10 15:56:52+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google