要約
インドには 1,369 の言語があり、そのうち 22 が公用語です。
これらの言語を表すために、約 13 種類の異なる文字が使用されます。
Common Label Set (CLS) は、多言語合成のためのエンドツーエンド (E2E) フレームワークで必要とされる単位の大量の語彙の問題に対処するために、音声学に基づいて開発されました。
これにより、シンセサイザーのフットプリントが削減され、言語スクリプトが同じファミリーに属していれば、同様の音声韻律を持つ新しい言語への迅速な適応も可能になりました。
この論文では、文字が 1 つのファミリーに属し、音韻論が別のファミリーに由来する音声合成についての新しい洞察を提供します。
インド言語のテキストはまず CLS に変換され、次に言語の音声韻律に一致するシンセサイザーが使用されます。
サンスクリット語とコンカニ語では、それぞれカンナダ語とマラーティー語のシンセサイザーを使用して、適応データがゼロでネイティブ スピーカーに似た品質が得られます。
さらに、このアプローチは、特定のネイティブ スピーカーの音声で 13 のインドの言語と英語にわたるシームレスなコード切り替えにも役立ちます。
要約(オリジナル)
India has 1369 languages of which 22 are official. About 13 different scripts are used to represent these languages. A Common Label Set (CLS) was developed based on phonetics to address the issue of large vocabulary of units required in the End to End (E2E) framework for multilingual synthesis. This reduced the footprint of the synthesizer and also enabled fast adaptation to new languages which had similar phonotactics, provided language scripts belonged to the same family. In this paper, we provide new insights into speech synthesis, where the script belongs to one family, while the phonotactics comes from another. Indian language text is first converted to CLS, and then a synthesizer that matches the phonotactics of the language is used. Quality akin to that of a native speaker is obtained for Sanskrit and Konkani with zero adaptation data, using Kannada and Marathi synthesizers respectively. Further, this approach also lends itself seamless code switching across 13 Indian languages and English in a given native speaker’s voice.
arxiv情報
著者 | Utkarsh Pathak,Chandra Sai Krishna Gunda,Sujitha Sathiyamoorthy,Keshav Agarwal,Hema A. Murthy |
発行日 | 2024-10-14 13:48:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google