音声超解像(Speech Super-Resolution:SSR)は、低解像度の音声信号を、欠落した高周波数成分を復元することで強化するタスクである。従来のアプローチでは、log-mel特徴を再構成し、その後、波形領域で高解像度音声を生成するボコーダを使用するのが一般的です。しかし、log-mel特徴量には位相情報がないため、再構成段階で性能が低下する可能性があります。選択的状態空間モデル(SSM)の最近の進歩に触発され、我々は時間領域で直接SSRを行うWave-U-Mambaと呼ばれる方法を提案する。WSRGlow、NU-Wave 2、AudioSRなどのモデルを含む比較研究において、Wave-U-Mambaは優れた性能を示し、8~24kHzの様々な低解像度サンプリングレートにおいて、最も低い対数スペクトル距離(LSD)を達成した。さらに、MOS(Mean Opinion Score)を用いてスコア化された人間の主観的な評価により、本手法が自然で人間に近い品質のSSRを生成することが明らかになりました。さらに、Wave-U-Mambaは、ベースラインモデルの2%以下のパラメータサイズで、単一のA100 GPU上でベースラインモデルの9倍以上の速度で高解像度音声を生成しながら、これらの結果を達成しました。
Speech Super-Resolution (SSR) is a task of enhancing low-resolution speech signals by restoring missing high-frequency components. Conventional approaches typically reconstruct log-mel features, followed by a vocoder that generates high-resolution speech in the waveform domain. However, as mel features lack phase information, this can result in performance degradation during the reconstruction phase. Motivated by recent advances with Selective State Spaces Models (SSMs), we propose a method, referred to as Wave-U-Mamba that directly performs SSR in time domain. In our comparative study, including models such as WSRGlow, NU-Wave 2, and AudioSR, Wave-U-Mamba demonstrates superior performance, achieving the lowest Log-Spectral Distance (LSD) across various low-resolution sampling rates, ranging from 8 to 24 kHz. Additionally, subjective human evaluations, scored using Mean Opinion Score (MOS) reveal that our method produces SSR with natural and human-like quality. Furthermore, Wave-U-Mamba achieves these results while generating high-resolution speech over nine times faster than baseline models on a single A100 GPU, with parameter sizes less than 2\% of those in the baseline models.
著者 | Yongjoon Lee,Chanwoo Kim |
発行日 | 2025-02-03 12:07:17+00:00 |
arxivサイト | arxiv_id(pdf) |