Partially Adaptive Multichannel Joint Reduction of Ego-noise and Environmental Noise

要約

人間とロボットの相互作用は、環境ノイズや自己誘導ノイズ、いわゆる自我ノイズの影響を受けるオーディオ録音からターゲットの音声を推定できる、ノイズに強いオーディオ処理モジュールに依存しています。
外部環境騒音源は環境によって異なりますが、自我騒音は主にロボットの内部モーターと関節によって引き起こされます。
エゴノイズと環境ノイズリダクションはしばしば分離されます。つまり、エゴノイズリダクションは環境ノイズを考慮せずに実行されます。
最近、変分オートエンコーダー (VAE) ベースの音声モデルが、完全適応型の非負行列因子分解 (NMF) ノイズ モデルと組み合わされ、さまざまな環境ノイズ障害下でクリーンな音声が回復されました。
ただし、その強化性能は、たとえば、騒音などの不利な音響シナリオでは制限されます。
エゴノイズ。
この論文では、VAE-NMFフレームワークを利用してエゴノイズと環境ノイズを共同でモデル化するためのマルチチャネル部分適応スキームを提案します。ここでは、エゴノイズモデルを事前トレーニングすることにより、エゴノイズの空間的およびスペクトル的に構造化された特性を利用します。
、未知の環境ノイズに適応する能力を保持しながら。
実験結果は、自我ノイズと環境ノイズが同時に存在する場合、提案されたアプローチが完全に固定されたスキームと完全に適応するスキームに基づく方法よりも優れていることを示しています。

要約(オリジナル)

Human-robot interaction relies on a noise-robust audio processing module capable of estimating target speech from audio recordings impacted by environmental noise, as well as self-induced noise, so-called ego-noise. While external ambient noise sources vary from environment to environment, ego-noise is mainly caused by the internal motors and joints of a robot. Ego-noise and environmental noise reduction are often decoupled, i.e., ego-noise reduction is performed without considering environmental noise. Recently, a variational autoencoder (VAE)-based speech model has been combined with a fully adaptive non-negative matrix factorization (NMF) noise model to recover clean speech under different environmental noise disturbances. However, its enhancement performance is limited in adverse acoustic scenarios involving, e.g. ego-noise. In this paper, we propose a multichannel partially adaptive scheme to jointly model ego-noise and environmental noise utilizing the VAE-NMF framework, where we take advantage of spatially and spectrally structured characteristics of ego-noise by pre-training the ego-noise model, while retaining the ability to adapt to unknown environmental noise. Experimental results show that our proposed approach outperforms the methods based on a completely fixed scheme and a fully adaptive scheme when ego-noise and environmental noise are present simultaneously.

arxiv情報

著者 Huajian Fang,Niklas Wittmer,Johannes Twiefel,Stefan Wermter,Timo Gerkmann
発行日 2023-03-27 09:40:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SD, eess.AS パーマリンク