要約
インドには1369の言語があり、そのうち22は公式です。
これらの言語を表すために、約13の異なるスクリプトが使用されます。
共通のラベルセット(CLS)は、多言語合成のためにエンドツーエンド(E2E)フレームワークで必要なユニットの大きな語彙の問題に対処するために、音声学に基づいて開発されました。
インド語のテキストは最初にCLSに変換されます。
このアプローチにより、特定のネイティブスピーカーの声で13のインド言語と英語にわたってシームレスなコードを切り替えることができます。これは、人口が多言語であるインド亜大陸での日常のスピーチに対応しています。
要約(オリジナル)
India has 1369 languages of which 22 are official. About 13 different scripts are used to represent these languages. A Common Label Set (CLS) was developed based on phonetics to address the issue of large vocabulary of units required in the End-to-End (E2E) framework for multilingual synthesis. The Indian language text is first converted to CLS. This approach enables seamless code switching across 13 Indian languages and English in a given native speaker’s voice, which corresponds to everyday speech in the Indian subcontinent, where the population is multilingual.
arxiv情報
著者 | Utkarsh P |
発行日 | 2025-02-21 17:00:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google