要約
現代社会においてオーディオ復元の重要性はますます高まっています。これは、高度な再生デバイスによって可能になる高品質の聴覚体験への需要だけでなく、生成オーディオ モデルの機能の向上により高忠実度オーディオが必要になったためでもあります。
通常、オーディオの復元は、損傷した入力から歪みのないオーディオを予測するタスクとして定義され、知覚と歪みのバランスをとるために GAN フレームワークを使用してトレーニングされることがよくあります。
オーディオの劣化は、特にコーデックによって主に中および高周波数範囲に集中するため、高品質の中高周波数コンテンツを正確に再構築しながら、低周波数情報を保存できるジェネレーターを設計することが重要な課題となります。
高サンプル レートの音楽分離、音声強調、およびオーディオ コーデック モデルにおける最近の進歩に触発され、高サンプル レートのオーディオ復元用に設計された生成モデルである Apollo を提案します。
Apollo は、明示的な周波数帯域分割モジュールを採用して、異なる周波数帯域間の関係をモデル化し、より一貫性のある高品質の復元オーディオを可能にします。
MUSDB18-HQ および MoisesDB データセットで評価された Apollo は、さまざまなビット レートと音楽ジャンルにわたって既存の SR-GAN モデルを常に上回っており、特に複数の楽器とボーカルの混合が含まれる複雑なシナリオで優れています。
Apollo は、計算効率を維持しながら、音楽復元の品質を大幅に向上させます。
Apollo のソース コードは、https://github.com/JusperLee/Apollo で公開されています。
要約(オリジナル)
Audio restoration has become increasingly significant in modern society, not only due to the demand for high-quality auditory experiences enabled by advanced playback devices, but also because the growing capabilities of generative audio models necessitate high-fidelity audio. Typically, audio restoration is defined as a task of predicting undistorted audio from damaged input, often trained using a GAN framework to balance perception and distortion. Since audio degradation is primarily concentrated in mid- and high-frequency ranges, especially due to codecs, a key challenge lies in designing a generator capable of preserving low-frequency information while accurately reconstructing high-quality mid- and high-frequency content. Inspired by recent advancements in high-sample-rate music separation, speech enhancement, and audio codec models, we propose Apollo, a generative model designed for high-sample-rate audio restoration. Apollo employs an explicit frequency band split module to model the relationships between different frequency bands, allowing for more coherent and higher-quality restored audio. Evaluated on the MUSDB18-HQ and MoisesDB datasets, Apollo consistently outperforms existing SR-GAN models across various bit rates and music genres, particularly excelling in complex scenarios involving mixtures of multiple instruments and vocals. Apollo significantly improves music restoration quality while maintaining computational efficiency. The source code for Apollo is publicly available at https://github.com/JusperLee/Apollo.
arxiv情報
著者 | Kai Li,Yi Luo |
発行日 | 2025-01-07 15:37:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google