Attention-Driven Multichannel Speech Enhancement in Moving Sound Source Scenarios

要約

現在のマルチチャネル音声強調アルゴリズムは通常、静止した音源を想定しており、現実との一般的な不一致により、現実世界のシナリオでのパフォーマンスが制限されます。
このペーパーでは、動的な設定向けに設計された、注意を重視した空間フィルタリング手法に焦点を当てます。
具体的には、フィルターの設計に使用される時間変化する空間共分散行列を推定するための線形および非線形の注意ベースの手法の適用を研究します。
また、空間統計を明示的に推定せずに、注意ベースの方法による空間フィルターの直接推定も調査します。
WSJ0 のクリーンな音声クリップは、残響のある環境で移動する話者の音声信号をシミュレートするために使用されます。
実験データセットは、シミュレーションされた音声信号と CHiME-3 からのマルチチャネル実際のノイズを混合することによって構築されます。
評価結果は、注意駆動型のアプローチが堅牢であり、静的および動的音響環境の両方において従来の空間フィルタリング アプローチよりも一貫して優れていることを示しています。

要約(オリジナル)

Current multichannel speech enhancement algorithms typically assume a stationary sound source, a common mismatch with reality that limits their performance in real-world scenarios. This paper focuses on attention-driven spatial filtering techniques designed for dynamic settings. Specifically, we study the application of linear and nonlinear attention-based methods for estimating time-varying spatial covariance matrices used to design the filters. We also investigate the direct estimation of spatial filters by attention-based methods without explicitly estimating spatial statistics. The clean speech clips from WSJ0 are employed for simulating speech signals of moving speakers in a reverberant environment. The experimental dataset is built by mixing the simulated speech signals with multichannel real noise from CHiME-3. Evaluation results show that the attention-driven approaches are robust and consistently outperform conventional spatial filtering approaches in both static and dynamic sound environments.

arxiv情報

著者 Yuzhu Wang,Archontis Politis,Tuomas Virtanen
発行日 2023-12-17 16:12:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.AS, eess.SP パーマリンク