要約
生成された音声言語モデルは、幅広い声、韻律、記録条件で音声を生み出し、自然な発話の多様性に近づいているようです。
ただし、生成された音声が音響的に多様である程度は、適切なメトリックの欠如のために不明のままです。
私たちは、音響の多様性の軽量の指標を開発することにより、このギャップに対処します。
音声、性別、感情、アクセント、バックグラウンドノイズの5つの側面の測定に焦点を当てています。
メトリックを、特殊なフェセット埋め込みモデルの構成と、埋め込み空間内の多様性を測定する集約関数として構築します。
次に、各ファセットに対して先験的に既知の多様性の好みを備えた一連のデータセットを構築します。
これらのデータセットを使用して、提案されたメトリックがベースラインよりも根本的な多様性との強力な一致を達成することを実証します。
最後に、いくつかの実生活の評価シナリオで提案されたメトリックの適用性を紹介します。
狂ったスピーチは公開されています。
要約(オリジナル)
Generative spoken language models produce speech in a wide range of voices, prosody, and recording conditions, seemingly approaching the diversity of natural speech. However, the extent to which generated speech is acoustically diverse remains unclear due to a lack of appropriate metrics. We address this gap by developing lightweight metrics of acoustic diversity, which we collectively refer to as MAD Speech. We focus on measuring five facets of acoustic diversity: voice, gender, emotion, accent, and background noise. We construct the metrics as a composition of specialized, per-facet embedding models and an aggregation function that measures diversity within the embedding space. Next, we build a series of datasets with a priori known diversity preferences for each facet. Using these datasets, we demonstrate that our proposed metrics achieve a stronger agreement with the ground-truth diversity than baselines. Finally, we showcase the applicability of our proposed metrics across several real-life evaluation scenarios. MAD Speech is made publicly accessible.
arxiv情報
著者 | Matthieu Futeral,Andrea Agostinelli,Marco Tagliasacchi,Neil Zeghidour,Eugene Kharitonov |
発行日 | 2025-03-11 12:02:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google