Speeding Up Speech Synthesis In Diffusion Models By Reducing Data Distribution Recovery Steps Via Content Transfer

要約

拡散ベースのボコーダーは、サンプリング中に多くのステップが必要となるため、速度が遅いと批判されてきました。
また、一般的に実装されているモデルの損失関数は、元の入力$x_0$または誤差$\epsilon_0$を対象とするように設計されています。
逆プロセスの初期のタイム ステップでは、これにより大きな予測誤差が生じ、音声の歪みが生じ、学習時間が長くなる可能性があります。
予測誤差の大きさを減らし、トレーニング時間を短縮することを目標として、順方向プロセスのタイムステップのさまざまな出力をターゲットとするセットアップを提案します。
ニューラル ネットワーク (NN) のさまざまな層を使用して、拡散の前方プロセスでノイズが含まれた出力と同様の表現を生成するように学習させることでノイズ除去を実行します。
NN 層は、最終的に最終層がきれいな音声を推定するまで、逆のプロセスで入力のノイズを段階的に除去することを学習します。
ニューラル ネットワークの層と順方向プロセス ステップ間の 1:1 マッピングを回避するために、スキップ パラメーター $\tau>1$ を定義し、NN 層が $\tau$ ステップで注入されたノイズを累積的に除去するようにトレーニングされるようにします。
前進プロセス。
これにより、データ配布の回復手順の数が大幅に削減され、その結果、音声の生成にかかる時間が短縮されます。
我々は広範な評価を通じて、提案された技術が現在の最先端ツールを上回るパフォーマンスで競争力のある高忠実度の音声を生成することを示します。
提案された手法は、目に見えない音声までよく一般化することもできます。

要約(オリジナル)

Diffusion based vocoders have been criticised for being slow due to the many steps required during sampling. Moreover, the model’s loss function that is popularly implemented is designed such that the target is the original input $x_0$ or error $\epsilon_0$. For early time steps of the reverse process, this results in large prediction errors, which can lead to speech distortions and increase the learning time. We propose a setup where the targets are the different outputs of forward process time steps with a goal to reduce the magnitude of prediction errors and reduce the training time. We use the different layers of a neural network (NN) to perform denoising by training them to learn to generate representations similar to the noised outputs in the forward process of the diffusion. The NN layers learn to progressively denoise the input in the reverse process until finally the final layer estimates the clean speech. To avoid 1:1 mapping between layers of the neural network and the forward process steps, we define a skip parameter $\tau>1$ such that an NN layer is trained to cumulatively remove the noise injected in the $\tau$ steps in the forward process. This significantly reduces the number of data distribution recovery steps and, consequently, the time to generate speech. We show through extensive evaluation that the proposed technique generates high-fidelity speech in competitive time that outperforms current state-of-the-art tools. The proposed technique is also able to generalize well to unseen speech.

arxiv情報

著者 Peter Ochieng
発行日 2023-09-18 10:35:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク