Building a Luganda Text-to-Speech Model From Crowdsourced Data

要約

ルガンダなどのアフリカ言語のテキスト読み上げ (TTS) 開発は依然として限定的です。これは主に、TTS モデルのトレーニングに不可欠な高品質の単一話者録音が不足しているためです。
これまでの研究では、20 歳から 49 歳までの複数の話者のルガンダ共通音声録音を利用することに重点が置かれてきました。
生成された音声は理解できますが、それでもスタジオグレードの録音でトレーニングされたモデルよりも品質が低くなります。
これは、共通音声録音の品質を向上させるために適用されたデータ前処理方法が不十分であることが原因です。
さらに、イントネーションの変化や背景雑音により、音声の収束を達成することはさらに困難になります。
この論文では、トレーニング データの前処理に加えて、イントネーションに近い複数の話者でトレーニングすることにより、Common Voice のルガンダ TTS の品質が向上する可能性があることを示します。
具体的には、録音した音声を主観的に聞き比べてイントネーションが近い女性スピーカー 6 人を選択しました。
録音の最初と最後から無音部分をトリミングすることに加えて、事前にトレーニングされた音声強調モデルを適用して、背景ノイズを低減し、音質を向上させました。
また、事前トレーニングされた非侵入型自己教師型平均オピニオン スコア (MOS) 推定モデルを利用して、知覚品質が高いことを示す推定 MOS が 3.5 を超える録音をフィルタリングしました。
ルガンダ語を母語とする 9 人の MOS による主観的な MOS 評価は、私たちの TTS モデルが、報告されている既存モデルの 2.5 MOS と比較して、3.55 という大幅に優れた MOS を達成していることを示しています。
さらに、公正な比較として、6 人のスピーカーでトレーニングされたモデルは、1 人のスピーカー (3.13 MOS) または 2 人のスピーカー (3.22 MOS) でトレーニングされたモデルよりも優れています。
これは、1 人の話者からのデータの不足を、イントネーションの近い複数の話者からのデータで補って TTS 品質を向上させる効果を示しています。

要約(オリジナル)

Text-to-speech (TTS) development for African languages such as Luganda is still limited, primarily due to the scarcity of high-quality, single-speaker recordings essential for training TTS models. Prior work has focused on utilizing the Luganda Common Voice recordings of multiple speakers aged between 20-49. Although the generated speech is intelligible, it is still of lower quality than the model trained on studio-grade recordings. This is due to the insufficient data preprocessing methods applied to improve the quality of the Common Voice recordings. Furthermore, speech convergence is more difficult to achieve due to varying intonations, as well as background noise. In this paper, we show that the quality of Luganda TTS from Common Voice can improve by training on multiple speakers of close intonation in addition to further preprocessing of the training data. Specifically, we selected six female speakers with close intonation determined by subjectively listening and comparing their voice recordings. In addition to trimming out silent portions from the beginning and end of the recordings, we applied a pre-trained speech enhancement model to reduce background noise and enhance audio quality. We also utilized a pre-trained, non-intrusive, self-supervised Mean Opinion Score (MOS) estimation model to filter recordings with an estimated MOS over 3.5, indicating high perceived quality. Subjective MOS evaluations from nine native Luganda speakers demonstrate that our TTS model achieves a significantly better MOS of 3.55 compared to the reported 2.5 MOS of the existing model. Moreover, for a fair comparison, our model trained on six speakers outperforms models trained on a single-speaker (3.13 MOS) or two speakers (3.22 MOS). This showcases the effectiveness of compensating for the lack of data from one speaker with data from multiple speakers of close intonation to improve TTS quality.

arxiv情報

著者 Sulaiman Kagumire,Andrew Katumba,Joyce Nakatumba-Nabende,John Quinn
発行日 2024-05-16 16:00:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク