Blind Audio Bandwidth Extension: A Diffusion-Based Zero-Shot Approach

要約

オーディオ帯域幅の拡張には、帯域制限された観測からの高周波スペクトルの現実的な再構築が含まれます。
過去のオーディオ録音を復元する場合など、ローパスの劣化が不明な場合、これは盲目的な問題になります。
この論文では、事前トレーニングされた無条件拡散モデルの生成事前分布を活用して、ゼロショット設定でのブラインド問題に対処する、BABE (ブラインド オーディオ帯域幅拡張) と呼ばれる新しい方法を紹介します。
推論プロセス中に、BABE は拡散事後サンプリングの一般化バージョンを利用します。この場合、劣化演算子は不明ですが、パラメーター化され、反復的に推論されます。
提案された方法のパフォーマンスは客観的および主観的なメトリクスを使用して評価され、その結果は、合成データを使用してテストした場合、BABE が最先端のブラインド帯域幅拡張ベースラインを上回り、情報に基づいた方法と比較して競争力のあるパフォーマンスを達成することを示しています。
さらに、BABE は、実際の歴史的録音を強化する際に強力な一般化機能を発揮し、元の録音との一貫性を維持しながら、失われた高周波コンテンツを効果的に再構築します。
主観的な好みのテストにより、BABE が歴史的な音楽録音の音質を大幅に向上させることが確認されています。
提案された方法で復元された履歴記録の例は、関連する Web ページで入手できます: (http://research.spa.aalto.fi/publications/papers/ieee-taslp-babe/)

要約(オリジナル)

Audio bandwidth extension involves the realistic reconstruction of high-frequency spectra from bandlimited observations. In cases where the lowpass degradation is unknown, such as in restoring historical audio recordings, this becomes a blind problem. This paper introduces a novel method called BABE (Blind Audio Bandwidth Extension) that addresses the blind problem in a zero-shot setting, leveraging the generative priors of a pre-trained unconditional diffusion model. During the inference process, BABE utilizes a generalized version of diffusion posterior sampling, where the degradation operator is unknown but parametrized and inferred iteratively. The performance of the proposed method is evaluated using objective and subjective metrics, and the results show that BABE surpasses state-of-the-art blind bandwidth extension baselines and achieves competitive performance compared to informed methods when tested with synthetic data. Moreover, BABE exhibits robust generalization capabilities when enhancing real historical recordings, effectively reconstructing the missing high-frequency content while maintaining coherence with the original recording. Subjective preference tests confirm that BABE significantly improves the audio quality of historical music recordings. Examples of historical recordings restored with the proposed method are available on the companion webpage: (http://research.spa.aalto.fi/publications/papers/ieee-taslp-babe/)

arxiv情報

著者 Eloi Moliner,Filip Elvander,Vesa Välimäki
発行日 2024-01-30 15:40:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク