Raw Speech Enhancement with Deep State Space Modeling

要約

エンドツーエンド方式でオンラインの生の音声を効率的に強化するために構成された、シンプルな深い状態空間オートエンコーダである aTENNuate を紹介します。
ネットワークのパフォーマンスは主に生の音声のノイズ除去で評価され、超解像度や逆量子化などのタスクも追加で評価されます。
VoiceBank + DEMAND および Microsoft DNS1 総合テスト セットで aTENNuate のベンチマークを行います。
このネットワークは、PESQ スコア、パラメータ数、MAC、待ち時間の点で、以前のリアルタイム ノイズ除去モデルよりも優れたパフォーマンスを発揮します。
生の波形処理モデルであっても、このモデルは可聴アーチファクトを最小限に抑え、クリーンな信号に対する高い忠実度を維持します。
さらに、このモデルは、ノイズの多い入力が 4000 Hz および 4 ビットまで圧縮された場合でもパフォーマンスを維持しており、低リソース環境における一般的な音声強調機能を示唆しています。

要約(オリジナル)

We present aTENNuate, a simple deep state-space autoencoder configured for efficient online raw speech enhancement in an end-to-end fashion. The network’s performance is primarily evaluated on raw speech denoising, with additional assessments on tasks such as super-resolution and de-quantization. We benchmark aTENNuate on the VoiceBank + DEMAND and the Microsoft DNS1 synthetic test sets. The network outperforms previous real-time denoising models in terms of PESQ score, parameter count, MACs, and latency. Even as a raw waveform processing model, the model maintains high fidelity to the clean signal with minimal audible artifacts. In addition, the model remains performant even when the noisy input is compressed down to 4000Hz and 4 bits, suggesting general speech enhancement capabilities in low-resource environments.

arxiv情報

著者 Yan Ru Pei,Ritik Shrivastava,FNU Sidharth
発行日 2024-09-05 09:28:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS パーマリンク