Raw Speech Enhancement with Deep State Space Modeling


エンドツーエンド方式でオンラインの生の音声を効率的に強化するために構成された、シンプルな深い状態空間オートエンコーダである aTENNuate を紹介します。
VoiceBank + DEMAND および Microsoft DNS1 総合テスト セットで aTENNuate のベンチマークを行います。
このネットワークは、PESQ スコア、パラメータ数、MAC、待ち時間の点で、以前のリアルタイム ノイズ除去モデルよりも優れたパフォーマンスを発揮します。
さらに、このモデルは、ノイズの多い入力が 4000 Hz および 4 ビットまで圧縮された場合でもパフォーマンスを維持しており、低リソース環境における一般的な音声強調機能を示唆しています。


We present aTENNuate, a simple deep state-space autoencoder configured for efficient online raw speech enhancement in an end-to-end fashion. The network’s performance is primarily evaluated on raw speech denoising, with additional assessments on tasks such as super-resolution and de-quantization. We benchmark aTENNuate on the VoiceBank + DEMAND and the Microsoft DNS1 synthetic test sets. The network outperforms previous real-time denoising models in terms of PESQ score, parameter count, MACs, and latency. Even as a raw waveform processing model, the model maintains high fidelity to the clean signal with minimal audible artifacts. In addition, the model remains performant even when the noisy input is compressed down to 4000Hz and 4 bits, suggesting general speech enhancement capabilities in low-resource environments.


著者 Yan Ru Pei,Ritik Shrivastava,FNU Sidharth
発行日 2024-09-05 09:28:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS パーマリンク