SQuId: Measuring Speech Naturalness in Many Languages

要約

テキスト読み上げの研究の多くは人間による評価に依存しているため、多大なコストがかかり、開発プロセスが遅くなります。
この問題は、多言語を使用したアプリケーションで特に深刻であり、審査員の募集と投票に数週間かかる場合があります。
SQuId (Speech Quality Identification) を紹介します。これは、100 万を超える評価でトレーニングされ、65 のロケールでテストされた多言語の自然さ予測モデルです。これは、このタイプのこれまでで最大の取り組みです。
主な洞察は、多くのロケールで 1 つのモデルをトレーニングすると、単一ロケールのベースラインよりも一貫してパフォーマンスが優れているということです。
私たちのタスクであるモデルを提示し、それが w2v-BERT と VoiceMOS に基づく競合ベースラインを 50.0% 上回ることを示します。
次に、微調整中のクロスロケール転送の有効性を実証し、ゼロショット ロケール、つまり微調整データが存在しないロケールに対するその効果を強調します。
一連の分析を通じて、私たちは、ロケールを越えた伝達における音声アーティファクトなどの非言語効果の役割を強調します。
最後に、いくつかのアブレーション実験によるモデル サイズ、事前トレーニングの多様性、言語のリバランスなどの設計上の決定の影響を示します。

要約(オリジナル)

Much of text-to-speech research relies on human evaluation, which incurs heavy costs and slows down the development process. The problem is particularly acute in heavily multilingual applications, where recruiting and polling judges can take weeks. We introduce SQuId (Speech Quality Identification), a multilingual naturalness prediction model trained on over a million ratings and tested in 65 locales-the largest effort of this type to date. The main insight is that training one model on many locales consistently outperforms mono-locale baselines. We present our task, the model, and show that it outperforms a competitive baseline based on w2v-BERT and VoiceMOS by 50.0%. We then demonstrate the effectiveness of cross-locale transfer during fine-tuning and highlight its effect on zero-shot locales, i.e., locales for which there is no fine-tuning data. Through a series of analyses, we highlight the role of non-linguistic effects such as sound artifacts in cross-locale transfer. Finally, we present the effect of our design decision, e.g., model size, pre-training diversity, and language rebalancing with several ablation experiments.

arxiv情報

著者 Thibault Sellam,Ankur Bapna,Joshua Camp,Diana Mackinnon,Ankur P. Parikh,Jason Riesa
発行日 2023-06-01 14:51:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク