Rethinking MUSHRA: Addressing Modern Challenges in Text-to-Speech Evaluation

要約

TTS モデルは急速に進歩していますが、一貫した堅牢な人間による評価フレームワークは依然として不足しています。
たとえば、MOS テストでは類似したモデルを区別できず、CMOS のペアごとの比較には時間がかかります。
MUSHRA テストは、複数の TTS システムを同時に評価するための有望な代替手段ですが、この研究では、人間の参照音声との一致への依存により、人間の音声品質を超える可能性がある最新の TTS システムのスコアに不当なペナルティが課されることを示します。
より具体的には、評価者のばらつき、聞き手の疲労、参照バイアスなどの要因に対する感度に焦点を当てて、MUSHRA テストの包括的な評価を実施します。
ヒンディー語とタミル語の 471 人の人間の聴取者を対象とした広範な評価に基づいて、次の 2 つの主な欠点を特定しました。(i) 評価者が人間の参照によって不当に影響される参照一致バイアス、および (ii) 明確な情報の欠如から生じる判断の曖昧さ
きめ細かいガイドライン。
これらの問題に対処するために、MUSHRA テストの 2 つの改良されたバリアントを提案します。
最初のバリアントでは、人間の基準品質を超える合成サンプルのより公平な評価が可能になります。
2 番目のバリアントでは、評価者間の分散が比較的小さいことからわかるように、曖昧さが軽減されます。
これらのアプローチを組み合わせることで、より信頼性の高い評価とより詳細な評価の両方を実現します。
また、人間の好みを分析し、TTS システムを評価するための自動指標を開発するのに役立つ、インド言語初のコレクションである 47,100 件の人間による評価の大規模なデータセットである MANGO もリリースします。

要約(オリジナル)

Despite rapid advancements in TTS models, a consistent and robust human evaluation framework is still lacking. For example, MOS tests fail to differentiate between similar models, and CMOS’s pairwise comparisons are time-intensive. The MUSHRA test is a promising alternative for evaluating multiple TTS systems simultaneously, but in this work we show that its reliance on matching human reference speech unduly penalises the scores of modern TTS systems that can exceed human speech quality. More specifically, we conduct a comprehensive assessment of the MUSHRA test, focusing on its sensitivity to factors such as rater variability, listener fatigue, and reference bias. Based on our extensive evaluation involving 471 human listeners across Hindi and Tamil we identify two primary shortcomings: (i) reference-matching bias, where raters are unduly influenced by the human reference, and (ii) judgement ambiguity, arising from a lack of clear fine-grained guidelines. To address these issues, we propose two refined variants of the MUSHRA test. The first variant enables fairer ratings for synthesized samples that surpass human reference quality. The second variant reduces ambiguity, as indicated by the relatively lower variance across raters. By combining these approaches, we achieve both more reliable and more fine-grained assessments. We also release MANGO, a massive dataset of 47,100 human ratings, the first-of-its-kind collection for Indian languages, aiding in analyzing human preferences and developing automatic metrics for evaluating TTS systems.

arxiv情報

著者 Praveen Srinivasa Varadhan,Amogh Gulati,Ashwin Sankar,Srija Anand,Anirudh Gupta,Anirudh Mukherjee,Shiva Kumar Marepally,Ankur Bhatia,Saloni Jaju,Suvrat Bhooshan,Mitesh M. Khapra
発行日 2024-11-19 18:37:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク