MooseNet: A Trainable Metric for Synthesized Speech with a PLDA Module

要約

私たちは、聞き手の平均意見スコア (MOS) を予測する訓練可能な音声指標である MooseNet を紹介します。
私たちは、自己教師あり学習 (SSL) ニューラル ネットワーク (NN) モデルから得られた埋め込みに加えて、確率的線形判別分析 (PLDA) 生成モデルを使用する新しいアプローチを提案します。
PLDA は、136 発話 (約 1 分のトレーニング時間) のみでトレーニングした場合、微調整されていない SSL モデルでうまく機能すること、および PLDA がさまざまなニューラル MOS 予測モデル (タスクを含む最先端のモデルであっても) を一貫して改善することを示します。
具体的な微調整。
私たちのアブレーション研究では、リソースが少ないシナリオでは、SSL モデルの微調整よりも PLDA トレーニングの方が優れていることが示されています。
また、便利なオプティマイザーの選択と追加の対照的でマルチタスクのトレーニング目標を使用して、SSL モデルの微調整も改善します。
PLDA モジュールを使用して微調整された MooseNet NN は、VoiceMOS Challenge データの SSL ベースラインを超える最高の結果を達成します。

要約(オリジナル)

We present MooseNet, a trainable speech metric that predicts the listeners’ Mean Opinion Score (MOS). We propose a novel approach where the Probabilistic Linear Discriminative Analysis (PLDA) generative model is used on top of an embedding obtained from a self-supervised learning (SSL) neural network (NN) model. We show that PLDA works well with a non-finetuned SSL model when trained only on 136 utterances (ca. one minute training time) and that PLDA consistently improves various neural MOS prediction models, even state-of-the-art models with task-specific fine-tuning. Our ablation study shows PLDA training superiority over SSL model fine-tuning in a low-resource scenario. We also improve SSL model fine-tuning using a convenient optimizer choice and additional contrastive and multi-task training objectives. The fine-tuned MooseNet NN with the PLDA module achieves the best results, surpassing the SSL baseline on the VoiceMOS Challenge data.

arxiv情報

著者 Ondřej Plátek,Ondřej Dušek
発行日 2023-06-29 06:33:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク