要約
本稿では、MFCCを入力として採用し、生の音声波形を生成する敵対的学習に基づく新しい音声合成装置としてMFCCGANを紹介します。
GAN モデルの機能を利用して、ルールベースの MFCC ベースの音声合成装置 WORLD よりも明瞭度の高い音声を生成します。
私たちは、一般的な侵入型客観的音声明瞭度測定 (STOI) と品質 (NISQA スコア) に基づいてモデルを評価しました。
実験結果は、私たちが提案したシステムがLibrosa MFCC反転を上回っており(STOIで約26%から最大53%、NISQAスコアで16%から最大78%の増加)、明瞭度で約10%、約4%向上していることを示しています。
CycleGAN-VCファミリーで使用されている従来のルールベースのボコーダーWORLDと比較して、自然さにおいて優れています。
ただし、WORLD には F0 などの追加データが必要です。
最後に、STOI に基づく識別器で知覚損失を使用すると、品質をさらに向上させることができます。
WebMUSHRA ベースの主観的テストでも、提案されたアプローチの品質が示されます。
要約(オリジナル)
In this paper, we introduce MFCCGAN as a novel speech synthesizer based on adversarial learning that adopts MFCCs as input and generates raw speech waveforms. Benefiting the GAN model capabilities, it produces speech with higher intelligibility than a rule-based MFCC-based speech synthesizer WORLD. We evaluated the model based on a popular intrusive objective speech intelligibility measure (STOI) and quality (NISQA score). Experimental results show that our proposed system outperforms Librosa MFCC- inversion (by an increase of about 26% up to 53% in STOI and 16% up to 78% in NISQA score) and a rise of about 10% in intelligibility and about 4% in naturalness in comparison with conventional rule-based vocoder WORLD that used in the CycleGAN-VC family. However, WORLD needs additional data like F0. Finally, using perceptual loss in discriminators based on STOI could improve the quality more. WebMUSHRA-based subjective tests also show the quality of the proposed approach.
arxiv情報
著者 | Mohammad Reza Hasanabadi Majid Behdad Davood Gharavian |
発行日 | 2023-06-22 10:29:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google