1000 African Voices: Advancing inclusive multi-speaker multi-accent speech synthesis

要約

音声合成の最近の進歩により、Google マップの音声案内、スクリーン リーダー、TikTok などのプラットフォームでの自動コンテンツ生成など、多くの便利なアプリケーションが可能になりました。
ただし、これらのシステムは、ソース データを代表するペルソナを持つ、データが豊富な地域から得られた音声によって支配されています。
世界の 3,000 の言語がアフリカに居住していますが、アフリカの声や人物はこれらのシステムでは過小評価されています。
音声合成がますます民主化されるにつれて、アフリカ英語のアクセントの表現を増やすことが望ましいです。
我々は、教育、公衆衛生、および自動コンテンツ作成における下流アプリケーション向けに、アフリカ全土の豊かな音韻多様性を表す 1,000 人のペルソナを備え、86 のアフリカのアクセントで音声を生成できる初の汎アフリカアクセント英語音声合成システムである Afro-TTS を紹介します。
スピーカー補間により、自然さとアクセントが維持され、新しい音声を作成できます。

要約(オリジナル)

Recent advances in speech synthesis have enabled many useful applications like audio directions in Google Maps, screen readers, and automated content generation on platforms like TikTok. However, these systems are mostly dominated by voices sourced from data-rich geographies with personas representative of their source data. Although 3000 of the world’s languages are domiciled in Africa, African voices and personas are under-represented in these systems. As speech synthesis becomes increasingly democratized, it is desirable to increase the representation of African English accents. We present Afro-TTS, the first pan-African accented English speech synthesis system able to generate speech in 86 African accents, with 1000 personas representing the rich phonological diversity across the continent for downstream application in Education, Public Health, and Automated Content Creation. Speaker interpolation retains naturalness and accentedness, enabling the creation of new voices.

arxiv情報

著者 Sewade Ogun,Abraham T. Owodunni,Tobi Olatunji,Eniola Alese,Babatunde Oladimeji,Tejumade Afonja,Kayode Olaleye,Naome A. Etori,Tosin Adewumi
発行日 2024-06-17 16:46:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク