The FruitShell French synthesis system at the Blizzard 2023 Challenge

要約

この論文では、Blizzard Challenge 2023 用のフランス語テキスト音声合成システムを紹介します。このチャレンジは、女性話者から高品質の音声を生成することと、特定の個人によく似た音声を生成することの 2 つのタスクで構成されます。
コンテストデータについては、テキストデータの欠落や誤りを除去するための審査を実施しました。
音素を除くすべての記号を整理し、発音がない、または継続時間がゼロの記号を削除しました。
さらに、単語の境界と開始/終了記号をテキストに追加しました。これにより、以前の経験に基づいて音声品質が向上することがわかりました。
スポークタスクでは、競技ルールに従ってデータ拡張を実行しました。
オープンソースの G2P モデルを使用して、フランス語のテキストを音素に転写しました。
G2P モデルでは International Phonetic Alphabet (IPA) が使用されているため、提供された競争データにも同様の転記プロセスを適用して標準化しました。
ただし、IPA チャートからの特殊記号を認識する際のコンパイラーの制限のため、ルールに従ってすべての音素を競技データで使用される表音スキームに変換しました。
最後に、すべての競技オーディオを 16 kHz の均一なサンプリング レートにリサンプリングしました。
VITS ベースの音響モデルと hifigan ボコーダーを採用しました。
スポーク タスクでは、マルチスピーカー モデルをトレーニングし、モデルの継続時間予測レイヤー、ボコーダー層、およびフロー層にスピーカー情報を組み込みました。
私たちのシステムの評価結果は、品質 MOS スコアがハブ タスクで 3.6、スポーク タスクで 3.4 であることを示し、すべての参加チームの中で平均的なレベルにありました。

要約(オリジナル)

This paper presents a French text-to-speech synthesis system for the Blizzard Challenge 2023. The challenge consists of two tasks: generating high-quality speech from female speakers and generating speech that closely resembles specific individuals. Regarding the competition data, we conducted a screening process to remove missing or erroneous text data. We organized all symbols except for phonemes and eliminated symbols that had no pronunciation or zero duration. Additionally, we added word boundary and start/end symbols to the text, which we have found to improve speech quality based on our previous experience. For the Spoke task, we performed data augmentation according to the competition rules. We used an open-source G2P model to transcribe the French texts into phonemes. As the G2P model uses the International Phonetic Alphabet (IPA), we applied the same transcription process to the provided competition data for standardization. However, due to compiler limitations in recognizing special symbols from the IPA chart, we followed the rules to convert all phonemes into the phonetic scheme used in the competition data. Finally, we resampled all competition audio to a uniform sampling rate of 16 kHz. We employed a VITS-based acoustic model with the hifigan vocoder. For the Spoke task, we trained a multi-speaker model and incorporated speaker information into the duration predictor, vocoder, and flow layers of the model. The evaluation results of our system showed a quality MOS score of 3.6 for the Hub task and 3.4 for the Spoke task, placing our system at an average level among all participating teams.

arxiv情報

著者 Xin Qi,Xiaopeng Wang,Zhiyong Wang,Wang Liu,Mingming Ding,Shuchen Shi
発行日 2024-08-20 09:26:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク