要約
拡散モデルは、高品質で自然な音声サンプルを生成することに大きな成功を収めていますが、音声の密度推定の可能性はこれまでのところほとんど未踏のままでした。
この作業では、音声品質の評価のためにきれいな音声でのみ訓練された無条件の拡散モデルを活用します。
発話の品質は、決定論的なノーシングプロセスを介して得られた、終了ガウス分布の対応するサンプルの可能性を推定することで評価できることを示します。
結果の方法は純粋に監視されておらず、きれいなスピーチでのみ訓練されているため、注釈に依存しません。
当社の拡散ベースのアプローチは、クリーンな音声事前に活用して、入力がクリーンデータの学習分布にどのように関連するかに基づいて品質を評価します。
私たちの提案された対数尤度は、邪魔な音声品質メトリックとよく相関し、リスニング実験で人間のスコアとの最良の相関を示す有望な結果を示しています。
要約(オリジナル)
Diffusion models have found great success in generating high quality, natural samples of speech, but their potential for density estimation for speech has so far remained largely unexplored. In this work, we leverage an unconditional diffusion model trained only on clean speech for the assessment of speech quality. We show that the quality of a speech utterance can be assessed by estimating the likelihood of a corresponding sample in the terminating Gaussian distribution, obtained via a deterministic noising process. The resulting method is purely unsupervised, trained only on clean speech, and therefore does not rely on annotations. Our diffusion-based approach leverages clean speech priors to assess quality based on how the input relates to the learned distribution of clean data. Our proposed log-likelihoods show promising results, correlating well with intrusive speech quality metrics and showing the best correlation with human scores in a listening experiment.
arxiv情報
著者 | Danilo de Oliveira,Julius Richter,Jean-Marie Lemercier,Simon Welker,Timo Gerkmann |
発行日 | 2025-06-13 16:00:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google