VoxHakka: A Dialectally Diverse Multi-speaker Text-to-Speech System for Taiwanese Hakka

要約

この文書では、台湾で話されている非常にリソースが不足している言語である台湾客家向けに設計されたテキスト読み上げ (TTS) システムである VoxHakka について紹介します。
YourTTS フレームワークを活用することで、VoxHakka は、6 つの異なる客家方言をサポートしながら、音声合成における高い自然性と正確性、および低いリアルタイム性を実現します。
これは、方言固有のデータを使用してモデルをトレーニングすることによって実現され、話者を意識した客家語の音声を生成できるようになります。
公的に利用可能な客家語音声コーパスの不足に対処するために、私たちは自動音声認識 (ASR) ベースのデータ クリーニング技術と組み合わせた Web スクレイピング パイプラインを利用した費用対効果の高いアプローチを採用しました。
このプロセスにより、TTS トレーニングに適した高品質、複数話者、複数の方言のデータセットが確実に取得されました。
比較平均意見スコア (CMOS) を使用して実施された主観的リスニング テストでは、VoxHakka が、発音の正確さ、声調の正確さ、全体的な自然さの点で、既存の公的に利用可能な Hakka TTS システムよりも大幅に優れていることが実証されました。
この研究は客家語技術の大幅な進歩を表しており、言語の保存と活性化の取り組みに貴重なリソースを提供します。

要約(オリジナル)

This paper introduces VoxHakka, a text-to-speech (TTS) system designed for Taiwanese Hakka, a critically under-resourced language spoken in Taiwan. Leveraging the YourTTS framework, VoxHakka achieves high naturalness and accuracy and low real-time factor in speech synthesis while supporting six distinct Hakka dialects. This is achieved by training the model with dialect-specific data, allowing for the generation of speaker-aware Hakka speech. To address the scarcity of publicly available Hakka speech corpora, we employed a cost-effective approach utilizing a web scraping pipeline coupled with automatic speech recognition (ASR)-based data cleaning techniques. This process ensured the acquisition of a high-quality, multi-speaker, multi-dialect dataset suitable for TTS training. Subjective listening tests conducted using comparative mean opinion scores (CMOS) demonstrate that VoxHakka significantly outperforms existing publicly available Hakka TTS systems in terms of pronunciation accuracy, tone correctness, and overall naturalness. This work represents a significant advancement in Hakka language technology and provides a valuable resource for language preservation and revitalization efforts.

arxiv情報

著者 Li-Wei Chen,Hung-Shin Lee,Chen-Chi Chang
発行日 2024-09-24 08:34:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク