要約
最近公開された Text-to-Speech (TTS) システムの多くは、実際の音声に近い音声を生成します。
ただし、新しいアーキテクチャ、アプローチ、データセットで得られた結果を理解するには、TTS 評価を再検討する必要があります。
私たちは、韻律、話者のアイデンティティ、明瞭度などの複数の要素の組み合わせとして合成音声の品質を評価することを提案します。
私たちのアプローチでは、各要素の相関関係を取得し、実際の音声データセットと雑音データセットの両方からの距離を測定することで、合成音声が実際の音声をどの程度反映しているかを評価します。
私たちは 2008 年から 2024 年の間に開発された 35 の TTS システムをベンチマークし、要素の加重なし平均として計算されたスコアが各期間の人間の評価と強く相関していることを示しました。
要約(オリジナル)
Many recently published Text-to-Speech (TTS) systems produce audio close to real speech. However, TTS evaluation needs to be revisited to make sense of the results obtained with the new architectures, approaches and datasets. We propose evaluating the quality of synthetic speech as a combination of multiple factors such as prosody, speaker identity, and intelligibility. Our approach assesses how well synthetic speech mirrors real speech by obtaining correlates of each factor and measuring their distance from both real speech datasets and noise datasets. We benchmark 35 TTS systems developed between 2008 and 2024 and show that our score computed as an unweighted average of factors strongly correlates with the human evaluations from each time period.
arxiv情報
著者 | Christoph Minixhofer,Ondřej Klejch,Peter Bell |
発行日 | 2024-07-17 16:30:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google