要約
最近、さまざまな配布外シナリオを条件としたユニバーサル波形生成タスクが研究されています。
GAN ベースの手法は高速波形生成において強みを示していますが、2 段階のテキスト読み上げなどのトレーニング推論の不一致シナリオに対して脆弱です。
一方、拡散ベースのモデルは、他の領域でも強力な生成パフォーマンスを示しています。
ただし、波形生成タスクの推論速度が遅いため、脚光を浴びることはありません。
何よりも、高解像度波形信号の自然な周期的特徴を明示的に解きほぐすことができるジェネレータ アーキテクチャは存在しません。
本稿では、新しい汎用波形生成モデルである PeriodWave を提案します。
まず、ベクトル場を推定するときに波形信号の周期的特徴を捕捉できる、周期を意識したフロー マッチング推定器を導入します。
さらに、重複を回避する複数周期推定器を利用して、波形信号のさまざまな周期的特徴を捕捉します。
期間の数を増やすとパフォーマンスが大幅に向上しますが、より多くの計算コストが必要になります。
この問題を軽減するために、期間ごとのバッチ推論によって並列フィードフォワードできる単一の期間条件付き汎用推定器も提案します。
さらに、離散ウェーブレット変換を利用して波形信号の周波数情報を無損失に分解して高周波モデリングを行い、FreeU を導入して波形生成時に高周波ノイズを低減します。
実験結果は、私たちのモデルがメルスペクトログラム再構築とテキスト読み上げタスクの両方において以前のモデルよりも優れていることを実証しました。
すべてのソース コードは \url{https://github.com/sh-lee-prml/PeriodWave} で入手できます。
要約(オリジナル)
Recently, universal waveform generation tasks have been investigated conditioned on various out-of-distribution scenarios. Although GAN-based methods have shown their strength in fast waveform generation, they are vulnerable to train-inference mismatch scenarios such as two-stage text-to-speech. Meanwhile, diffusion-based models have shown their powerful generative performance in other domains; however, they stay out of the limelight due to slow inference speed in waveform generation tasks. Above all, there is no generator architecture that can explicitly disentangle the natural periodic features of high-resolution waveform signals. In this paper, we propose PeriodWave, a novel universal waveform generation model. First, we introduce a period-aware flow matching estimator that can capture the periodic features of the waveform signal when estimating the vector fields. Additionally, we utilize a multi-period estimator that avoids overlaps to capture different periodic features of waveform signals. Although increasing the number of periods can improve the performance significantly, this requires more computational costs. To reduce this issue, we also propose a single period-conditional universal estimator that can feed-forward parallel by period-wise batch inference. Additionally, we utilize discrete wavelet transform to losslessly disentangle the frequency information of waveform signals for high-frequency modeling, and introduce FreeU to reduce the high-frequency noise for waveform generation. The experimental results demonstrated that our model outperforms the previous models both in Mel-spectrogram reconstruction and text-to-speech tasks. All source code will be available at \url{https://github.com/sh-lee-prml/PeriodWave}.
arxiv情報
著者 | Sang-Hoon Lee,Ha-Yeong Choi,Seong-Whan Lee |
発行日 | 2024-08-14 13:36:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google