要約
オーディオの超解像度は、その不適切な性質により困難を伴います。
最近、オーディオ超解像度における拡散モデルの適用により、この課題を軽減する有望な結果が示されました。
ただし、拡散ベースのモデルには制限があり、主に多数のサンプリング ステップが必要であるため、高品質のオーディオ サンプルを合成するときに遅延が大幅に増加します。
本稿では、高効率生成モデルであるフローマッチングをオーディオ超解像に統合する新しいアプローチであるFLowHighを提案します。
また、高解像度のオーディオ配信を効果的にキャプチャし、それによって再構築の品質を向上させる、オーディオの超解像のために特別に調整された確率パスも探索します。
提案された方法は、さまざまな入力サンプリング レートにわたる単一ステップのサンプリング プロセスを通じて、高忠実度の高解像度オーディオを生成します。
VCTK ベンチマーク データセットの実験結果は、FLowHigh がシングル ステップのサンプリング プロセスのみで計算効率を維持しながら、対数スペクトル距離と ViSQOL によって評価されるオーディオ超解像度で最先端のパフォーマンスを達成していることを示しています。
要約(オリジナル)
Audio super-resolution is challenging owing to its ill-posed nature. Recently, the application of diffusion models in audio super-resolution has shown promising results in alleviating this challenge. However, diffusion-based models have limitations, primarily the necessity for numerous sampling steps, which causes significantly increased latency when synthesizing high-quality audio samples. In this paper, we propose FLowHigh, a novel approach that integrates flow matching, a highly efficient generative model, into audio super-resolution. We also explore probability paths specially tailored for audio super-resolution, which effectively capture high-resolution audio distributions, thereby enhancing reconstruction quality. The proposed method generates high-fidelity, high-resolution audio through a single-step sampling process across various input sampling rates. The experimental results on the VCTK benchmark dataset demonstrate that FLowHigh achieves state-of-the-art performance in audio super-resolution, as evaluated by log-spectral distance and ViSQOL while maintaining computational efficiency with only a single-step sampling process.
arxiv情報
著者 | Jun-Hak Yun,Seung-Bin Kim,Seong-Whan Lee |
発行日 | 2025-01-09 02:30:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google