Efficient Monaural Speech Enhancement using Spectrum Attention Fusion

要約

音声強調は、自動音声処理パイプラインにおける要求の厳しいタスクであり、ノイズの多いチャンネルからきれいな音声を分離することに重点を置いている。トランスフォーマベースのモデルは、最近RNNやCNNモデルよりも音声強調において優れているが、同時に計算コストが高く、常に入手困難な高品質の学習データを必要とする。本論文では、モデルの複雑さを大幅に低減しながら、自己注意の表現力を維持する音声強調モデルの改良を発表する。我々は、音声変換器のいくつかの自己注意層を置き換える畳み込みモジュールを注意深く構築し、モデルがより効率的にスペクトル特徴を融合することを可能にする。我々の提案するモデルは、Voice Bank + DEMANDデータセットにおいて、SOTAモデルと同等かそれ以上の結果を得ることができたが、パラメータは大幅に小さかった(0.58M)。

要約(オリジナル)

Speech enhancement is a demanding task in automated speech processing pipelines, focusing on separating clean speech from noisy channels. Transformer based models have recently bested RNN and CNN models in speech enhancement, however at the same time they are much more computationally expensive and require much more high quality training data, which is always hard to come by. In this paper, we present an improvement for speech enhancement models that maintains the expressiveness of self-attention while significantly reducing model complexity, which we have termed Spectrum Attention Fusion. We carefully construct a convolutional module to replace several self-attention layers in a speech Transformer, allowing the model to more efficiently fuse spectral features. Our proposed model is able to achieve comparable or better results against SOTA models but with significantly smaller parameters (0.58M) on the Voice Bank + DEMAND dataset.

arxiv情報

著者 Jinyu Long,Jetic Gū,Binhao Bai,Zhibo Yang,Ping Wei,Junli Li
発行日 2023-08-04 11:39:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク