要約
拡散ベースの生成モデルは、ここ数年、コンピューター ビジョンと音声処理のコミュニティに大きな影響を与えてきました。
データ生成タスクに加えて、音声強調や残響除去などのデータ復元タスクにも使用されています。
識別モデルは伝統的により強力であると主張されてきました。
音声強調の場合、生成的拡散アプローチが最近、このパフォーマンス ギャップを大幅に狭めることが示されました。
この論文では、さまざまな音声復元タスクに対する生成的拡散モデルと識別的アプローチのパフォーマンスを体系的に比較します。
このために、複雑な時間-周波数ドメインでの拡散ベースの音声強調に関する以前の貢献を、帯域幅拡張のタスクに拡張します。
次に、音声ノイズ除去、残響除去、帯域幅拡張という 3 つの復元タスクで、同じネットワーク アーキテクチャを使用して識別的にトレーニングされたニューラル ネットワークと比較します。
生成的アプローチは、すべてのタスクで識別的アプローチよりもグローバルに優れたパフォーマンスを発揮し、残響除去や帯域幅拡張などの非加法的歪みモデルに最も大きな利点があることがわかります。
コードとオーディオの例は、https://uhh.de/inf-sp-sgmsemultitask でオンラインで見つけることができます。
要約(オリジナル)
Diffusion-based generative models have had a high impact on the computer vision and speech processing communities these past years. Besides data generation tasks, they have also been employed for data restoration tasks like speech enhancement and dereverberation. While discriminative models have traditionally been argued to be more powerful e.g. for speech enhancement, generative diffusion approaches have recently been shown to narrow this performance gap considerably. In this paper, we systematically compare the performance of generative diffusion models and discriminative approaches on different speech restoration tasks. For this, we extend our prior contributions on diffusion-based speech enhancement in the complex time-frequency domain to the task of bandwith extension. We then compare it to a discriminatively trained neural network with the same network architecture on three restoration tasks, namely speech denoising, dereverberation and bandwidth extension. We observe that the generative approach performs globally better than its discriminative counterpart on all tasks, with the strongest benefit for non-additive distortion models, like in dereverberation and bandwidth extension. Code and audio examples can be found online at https://uhh.de/inf-sp-sgmsemultitask
arxiv情報
著者 | Jean-Marie Lemercier,Julius Richter,Simon Welker,Timo Gerkmann |
発行日 | 2023-03-16 15:44:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google