要約
音声超解像度 (SSR) は、失われた高周波成分を復元することによって、低解像度の音声信号を強化するタスクです。
従来のアプローチは通常、ログメル特徴を再構築し、続いて波形領域で高解像度の音声を生成するボコーダーを使用します。
ただし、log-mel 特徴には位相情報が欠けているため、再構成フェーズ中にパフォーマンスが低下する可能性があります。
選択的状態空間モデル (SSM) の最近の進歩を動機として、時間領域で SSR を直接実行する Wave-U-Mamba と呼ばれる方法を提案します。
WSRGlow、NU-Wave 2、AudioSR などのモデルを含む比較研究では、Wave-U-Mamba が優れたパフォーマンスを示し、8 kHz からさまざまな低解像度サンプリング レートにわたって最低の対数スペクトル距離 (LSD) を達成しています。
24kHzまで。
さらに、平均オピニオンスコア(MOS)を使用してスコア化された人間の主観的な評価により、私たちの方法が自然で人間のような品質のSSRを生成することが明らかになりました。
さらに、Wave-U-Mamba は、単一の A100 GPU でベースライン モデルの 9 倍以上の速度で高解像度の音声を生成しながら、パラメータ サイズがベースライン モデルの 2% 未満で、これらの結果を達成します。
要約(オリジナル)
Speech Super-Resolution (SSR) is a task of enhancing low-resolution speech signals by restoring missing high-frequency components. Conventional approaches typically reconstruct log-mel features, followed by a vocoder that generates high-resolution speech in the waveform domain. However, as log-mel features lack phase information, this can result in performance degradation during the reconstruction phase. Motivated by recent advances with Selective State Spaces Models (SSMs), we propose a method, referred to as Wave-U-Mamba that directly performs SSR in time domain. In our comparative study, including models such as WSRGlow, NU-Wave 2, and AudioSR, Wave-U-Mamba demonstrates superior performance, achieving the lowest Log-Spectral Distance (LSD) across various low-resolution sampling rates, ranging from 8 kHz to 24 kHz. Additionally, subjective human evaluations, scored using Mean Opinion Score (MOS) reveal that our method produces SSR with natural and human-like quality. Furthermore, Wave-U-Mamba achieves these results while generating high-resolution speech over nine times faster than baseline models on a single A100 GPU, with parameter sizes less than 2% of those in the baseline models.
arxiv情報
著者 | Yongjoon Lee,Chanwoo Kim |
発行日 | 2024-09-17 17:33:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google