High-Resolution Speech Restoration with Latent Diffusion Model

要約

従来の音声強調方法は、単一の種類の歪みに焦点を当てて復元タスクを過度に単純化することがよくありました。
複数の歪みを処理する生成モデルは、音の再構成と高周波高調波に頻繁に問題を抱え、再構成された音声の明瞭度を低下させる呼吸やあえぎのアーティファクトを引き起こします。
これらのモデルは計算量も多く、多くのソリューションは広帯域周波数範囲での出力の生成に制限されているため、プロのアプリケーションへの適合性が制限されています。
これらの課題に対処するために、私たちは Hi-ResLDM を提案します。これは、複数の歪みを除去し、48kHz でサンプリングされた音声録音をスタジオ品質に復元するように設計された潜在拡散に基づく新しい生成モデルです。
GAN および条件付きフロー マッチング (CFM) コンポーネントを活用する最先端の手法に対して Hi-ResLDM をベンチマークし、高周波数帯域の詳細を再生する際の優れたパフォーマンスを実証します。
Hi-ResLDM は、非侵入型メトリクスで優れているだけでなく、人間による評価でも一貫して好まれており、侵入型評価でも競争力を発揮するため、高解像度の音声復元に最適です。

要約(オリジナル)

Traditional speech enhancement methods often oversimplify the task of restoration by focusing on a single type of distortion. Generative models that handle multiple distortions frequently struggle with phone reconstruction and high-frequency harmonics, leading to breathing and gasping artifacts that reduce the intelligibility of reconstructed speech. These models are also computationally demanding, and many solutions are restricted to producing outputs in the wide-band frequency range, which limits their suitability for professional applications. To address these challenges, we propose Hi-ResLDM, a novel generative model based on latent diffusion designed to remove multiple distortions and restore speech recordings to studio quality, sampled at 48kHz. We benchmark Hi-ResLDM against state-of-the-art methods that leverage GAN and Conditional Flow Matching (CFM) components, demonstrating superior performance in regenerating high-frequency-band details. Hi-ResLDM not only excels in non-instrusive metrics but is also consistently preferred in human evaluation and performs competitively on intrusive evaluations, making it ideal for high-resolution speech restoration.

arxiv情報

著者 Tushar Dhyani,Florian Lux,Michele Mancusi,Giorgio Fabbro,Fritz Hohl,Ngoc Thang Vu
発行日 2024-09-17 12:55:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS パーマリンク