Robust Zero-Shot Text-to-Speech Synthesis with Reverse Inference Optimization

要約

この論文では、人間のフィードバックからの強化学習 (RLHF) を使用して、自己回帰モデルベースのゼロショット音声合成 (TTS) システムの堅牢性を強化するように設計されたシンプルで効果的な方法である逆推論最適化 (RIO) を提案します。

人間による注釈なしで TTS システムによって生成された音声の品質を評価するために、RIO は、ベイズ原理に基づく逆推論と呼ばれる新しい概念を導入しています。これは、生成された高品質の音声が後続の音声のプロンプトとして使用できる必要があることを示唆しています。
同じ TTS モデルを使用して世代を生成します。
RIO は、TTS システム自体によって生成された音声サンプルから RLHF で使用されるサンプルを選択するための標準として逆推論を活用することで、その後の最適化を TTS の堅牢性を高める方向に導きます。
サンプリング、自動アノテーション、学習で構成される RIO フレームワークは、報酬モデルやペアごとの嗜好データの必要性を排除し、トレーニング条件と推論条件の間の差異を減らすことでゼロショット TTS パフォーマンスの安定性を大幅に向上させます。
私たちの実験結果は、RIO が平均意見スコア、単語誤り率、話者の類似性などの主観的指標と客観的指標の両方を効果的に改善できることを証明しています。
注目すべきことに、RIO は不正な出力の発生率をほぼ 0% まで減少させることもでき、グラウンド トゥルース音声をプロンプトとして使用した場合の堅牢性に匹敵します。

要約(オリジナル)

In this paper, we propose reverse inference optimization (RIO), a simple and effective method designed to enhance the robustness of autoregressive-model-based zero-shot text-to-speech (TTS) systems using reinforcement learning from human feedback (RLHF). To assess the quality of speech produced by the TTS system without human annotations, RIO introduces a novel concept termed as reverse inference based on the Bayesian principle, which suggests that a high-quality generated speech should be able to be used as a prompt for subsequent generation using the same TTS model. By leveraging reverse inference as the standard to select exemplars used in RLHF from the speech samples generated by the TTS system itself, RIO steers the subsequent optimization towards a direction of enhancing the TTS robustness. The RIO framework, comprising sampling, automatic annotating, and learning, obviates the need for a reward model or pairwise preference data, and significantly improves the stability of zero-shot TTS performance by reducing the discrepancies between training and inference conditions. Our experimental results verify that RIO can effectively improve both subjective and objective metrics, including mean opinion scores, word error rates, and speaker similarity. Remarkably, RIO can also diminish the incidence of bad outputs to nearly zero percent, rivalling the robustness when using ground-truth speech as the prompt.

arxiv情報

著者 Yuchen Hu,Chen Chen,Siyin Wang,Eng Siong Chng,Chao Zhang
発行日 2024-07-02 13:04:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク