要約
一般的なニューラル音声強調 (SE) アプローチは主に音声とノイズの混合を処理しますが、これは歌声の強調シナリオには最適ではありません。
音楽ソース分離 (MSS) モデルはボーカルとさまざまな伴奏コンポーネントを同等に扱うため、ボーカルの強調のみを考慮するモデルと比較してパフォーマンスが低下する可能性があります。
この論文では、歌声を強調するための新しいマルチバンド時間周波数ニューラル ネットワーク (MBTFNet) を提案します。これは、特に歌の録音からバックグラウンド ミュージック、ノイズ、さらにはバック ボーカルを除去します。
MBTFNet は、帯域間モデリングと帯域内モデリングを組み合わせて、フルバンド信号の処理を改善します。
モデルの受容野を拡大するためにデュアルパスモデリングが導入されました。
我々は、MBTFNet のパフォーマンスをさらに向上させる、信号対雑音比 (SNR) 推定に基づく暗黙的なパーソナライズされた拡張 (IPE) ステージを提案します。
実験では、私たちが提案したモデルがいくつかの最先端の SE および MSS モデルよりも大幅に優れていることが示されています。
要約(オリジナル)
A typical neural speech enhancement (SE) approach mainly handles speech and noise mixtures, which is not optimal for singing voice enhancement scenarios. Music source separation (MSS) models treat vocals and various accompaniment components equally, which may reduce performance compared to the model that only considers vocal enhancement. In this paper, we propose a novel multi-band temporal-frequency neural network (MBTFNet) for singing voice enhancement, which particularly removes background music, noise and even backing vocals from singing recordings. MBTFNet combines inter and intra-band modeling for better processing of full-band signals. Dual-path modeling are introduced to expand the receptive field of the model. We propose an implicit personalized enhancement (IPE) stage based on signal-to-noise ratio (SNR) estimation, which further improves the performance of MBTFNet. Experiments show that our proposed model significantly outperforms several state-of-the-art SE and MSS models.
arxiv情報
著者 | Weiming Xu,Zhouxuan Chen,Zhili Tan,Shubo Lv,Runduo Han,Wenjiang Zhou,Weifeng Zhao,Lei Xie |
発行日 | 2023-10-06 16:44:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google