UnDiff: Unsupervised Voice Restoration with Unconditional Diffusion Model

要約

この論文では、さまざまな音声逆タスクを解決できる拡散確率モデル UnDiff を紹介します。
無条件で音声波形を生成するように一度トレーニングされると、劣化反転、ニューラル ボコーディング、ソース分離などのさまざまなタスクに適応できます。
この論文では、まず、さまざまなニューラル アーキテクチャとプリコンディショニング ドメインを比較することにより、無条件波形生成という困難な問題に取り組みます。
その後、拡散モデルのトレーニング後の調整における最近の開発によって、トレーニングされた無条件拡散が音声処理のさまざまなタスクにどのように適応できるかを示します。
最後に、帯域幅拡張、デクリッピング、ボコーディング、音源分離のタスクに対する提案手法のパフォーマンスを実証し、ベースラインと比較します。
コードは間もなく公開されます。

要約(オリジナル)

This paper introduces UnDiff, a diffusion probabilistic model capable of solving various speech inverse tasks. Being once trained for speech waveform generation in an unconditional manner, it can be adapted to different tasks including degradation inversion, neural vocoding, and source separation. In this paper, we, first, tackle the challenging problem of unconditional waveform generation by comparing different neural architectures and preconditioning domains. After that, we demonstrate how the trained unconditional diffusion could be adapted to different tasks of speech processing by the means of recent developments in post-training conditioning of diffusion models. Finally, we demonstrate the performance of the proposed technique on the tasks of bandwidth extension, declipping, vocoding, and speech source separation and compare it to the baselines. The codes will be released soon.

arxiv情報

著者 Anastasiia Iashchenko,Pavel Andreev,Ivan Shchekotov,Nicholas Babaev,Dmitry Vetrov
発行日 2023-06-01 14:22:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク