Everyday Speech in the Indian Subcontinent

要約

インドには1369の言語があり、そのうち22は公式です。
これらの言語を表すために、約13の異なるスクリプトが使用されます。
共通のラベルセット(CLS)は、多言語合成のためにエンドツーエンド(E2E)フレームワークで必要なユニットの大きな語彙の問題に対処するために、音声学に基づいて開発されました。
インド語のテキストは最初にCLSに変換されます。
このアプローチにより、特定のネイティブスピーカーの声で13のインド言語と英語にわたってシームレスなコードを切り替えることができます。これは、人口が多言語であるインド亜大陸での日常のスピーチに対応しています。

要約(オリジナル)

India has 1369 languages of which 22 are official. About 13 different scripts are used to represent these languages. A Common Label Set (CLS) was developed based on phonetics to address the issue of large vocabulary of units required in the End-to-End (E2E) framework for multilingual synthesis. The Indian language text is first converted to CLS. This approach enables seamless code switching across 13 Indian languages and English in a given native speaker’s voice, which corresponds to everyday speech in the Indian subcontinent, where the population is multilingual.

arxiv情報

著者 Utkarsh P
発行日 2025-02-21 17:00:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS, I.2.7 パーマリンク