要約
本稿では、ブリザード・チャレンジ2023のためのフランス語音声合成システムを紹介する。この課題は、女性話者から高品質な音声を生成するタスクと、特定の個人に酷似した音声を生成するタスクの2つから構成される。競技データについては、欠落や誤りのあるテキストデータを除去するためのスクリーニング処理を行った。音素以外の記号を整理し、発音がない記号や継続時間がゼロの記号を削除した。さらに、これまでの経験から音声品質を向上させることが判明している単語境界記号と開始/終了記号をテキストに追加しました。Spokeタスクでは、競技規則に従ってデータ補強を行いました。フランス語のテキストを音素に書き起こすために、オープンソースのG2Pモデルを使用しました。G2Pモデルは国際音声記号(IPA)を使用しているため、標準化のために提供されたコンペティションデータにも同じ転写プロセスを適用しました。ただし、IPA表から特殊記号を認識する際のコンパイラの制限により、すべての音素を競技データで使用されている音素体系に変換するルールに従った。最後に、すべての競技音声を16kHzの均一なサンプリングレートに再サンプリングした。VITSベースの音響モデルとhifiganボコーダーを採用した。Spokeタスクでは、マルチスピーカーモデルをトレーニングし、モデルのデュレーション予測、ボコーダー、フロー層にスピーカー情報を組み込みました。本システムの評価結果は、Hubタスクで3.6、Spokeタスクで3.4の品質MOSスコアを示し、本システムは全参加チームの中で平均的なレベルに位置づけられました。
要約(オリジナル)
This paper presents a French text-to-speech synthesis system for the Blizzard Challenge 2023. The challenge consists of two tasks: generating high-quality speech from female speakers and generating speech that closely resembles specific individuals. Regarding the competition data, we conducted a screening process to remove missing or erroneous text data. We organized all symbols except for phonemes and eliminated symbols that had no pronunciation or zero duration. Additionally, we added word boundary and start/end symbols to the text, which we have found to improve speech quality based on our previous experience. For the Spoke task, we performed data augmentation according to the competition rules. We used an open-source G2P model to transcribe the French texts into phonemes. As the G2P model uses the International Phonetic Alphabet (IPA), we applied the same transcription process to the provided competition data for standardization. However, due to compiler limitations in recognizing special symbols from the IPA chart, we followed the rules to convert all phonemes into the phonetic scheme used in the competition data. Finally, we resampled all competition audio to a uniform sampling rate of 16 kHz. We employed a VITS-based acoustic model with the hifigan vocoder. For the Spoke task, we trained a multi-speaker model and incorporated speaker information into the duration predictor, vocoder, and flow layers of the model. The evaluation results of our system showed a quality MOS score of 3.6 for the Hub task and 3.4 for the Spoke task, placing our system at an average level among all participating teams.
arxiv情報
著者 | Xin Qi,Xiaopeng Wang,Zhiyong Wang,Wang Liu,Mingming Ding,Shuchen Shi |
発行日 | 2023-09-01 02:56:20+00:00 |
arxivサイト | arxiv_id(pdf) |