要約
音声テクノロジーは、包括的な言語情報を取得しながら、話者の声の変動を捕捉することに依存しています。
テキストプロンプトと文選択方法は、音声的に豊富な \textit{corpus} と呼ばれる、そのような適切な音声データを構成するために文献で提案されています。
ただし、音響モデリングにはまだ不十分であり、リソースが限られている言語では特に重要です。
したがって、この論文は、新しいアプローチを提案し、リソースの少ない言語であるブラジルポルトガル語の音声を広範囲にカバーする \textit{コーパス} を作成するために必要な方法論的側面を概説します。
私たちの方法論には、テキスト データセットの収集から、トライフォン分布に基づく文選択アルゴリズムまでが含まれます。
さらに、個別のトライフォンまたは低確率のトライフォンの絶対数では、考えられるすべての組み合わせを適切に表現できるとは限らないため、音響調音音声特徴に基づいた新しい音素分類を提案します。
私たちのアルゴリズムを使用すると、同様のサイズのサンプルの場合、個別のトライフォンの割合が 55.8% 高くなります。一方、現在利用可能な音声の豊富なコーパスである CETUC および TTS-ポルトガル語では、12.6% および 12.3% 高いものと比較して、
音声が豊富でないデータセット。
要約(オリジナル)
Speech technologies rely on capturing a speaker’s voice variability while obtaining comprehensive language information. Textual prompts and sentence selection methods have been proposed in the literature to comprise such adequate phonetic data, referred to as a phonetically rich \textit{corpus}. However, they are still insufficient for acoustic modeling, especially critical for languages with limited resources. Hence, this paper proposes a novel approach and outlines the methodological aspects required to create a \textit{corpus} with broad phonetic coverage for a low-resourced language, Brazilian Portuguese. Our methodology includes text dataset collection up to a sentence selection algorithm based on triphone distribution. Furthermore, we propose a new phonemic classification according to acoustic-articulatory speech features since the absolute number of distinct triphones, or low-probability triphones, does not guarantee an adequate representation of every possible combination. Using our algorithm, we achieve a 55.8\% higher percentage of distinct triphones — for samples of similar size — while the currently available phonetic-rich corpus, CETUC and TTS-Portuguese, 12.6\% and 12.3\% in comparison to a non-phonetically rich dataset.
arxiv情報
著者 | Marcellus Amadeus,William Alberto Cruz Castañeda,Wilmer Lobato,Niasche Aquino |
発行日 | 2024-02-08 16:36:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google