Multi-channel Speech Separation Using Spatially Selective Deep Non-linear Filters

要約

複数の話者によるマルチチャンネル分離タスクでは、混合物からすべての個々の音声信号を復元することを目的としています。
音声信号の異なる分光時間特性に依存する単一チャネルのアプローチとは対照的に、マルチチャネルのアプローチは、特に音源の数が増加した場合に、より強力な分離を実現するために、音源の異なる空間的位置をさらに利用する必要があります。
マルチチャンネル音源分離シナリオにおける空間処理を強化するために、この研究では、リカレントニューラルを初期化することによって関心のある話者を抽出するように空間的に操作できるディープニューラルネットワーク(DNN)ベースの空間選択フィルター(SSF)を提案します。
ネットワーク層とターゲット方向。
提案された SSF を、空間フィルタリングの実行を暗黙的にのみ学習する発話ごとの置換不変トレーニング (PIT) を使用してトレーニングされた一般的なエンドツーエンドの直接分離 (DS) アプローチと比較します。
混合内に 3 人以上の話者が存在する場合、SSF は、同じ基盤となるネットワーク アーキテクチャを備えた DS アプローチよりも明らかな利点があることを示します。これは、空間情報のより適切な使用に起因すると考えられます。
さらに、SSF は、トレーニング中には見ら​​れなかった追加の騒音源や、スピーカーが同様の角度に配置されているシナリオに対して、より適切に一般化できることがわかりました。

要約(オリジナル)

In a multi-channel separation task with multiple speakers, we aim to recover all individual speech signals from the mixture. In contrast to single-channel approaches, which rely on the different spectro-temporal characteristics of the speech signals, multi-channel approaches should additionally utilize the different spatial locations of the sources for a more powerful separation especially when the number of sources increases. To enhance the spatial processing in a multi-channel source separation scenario, in this work, we propose a deep neural network (DNN) based spatially selective filter (SSF) that can be spatially steered to extract the speaker of interest by initializing a recurrent neural network layer with the target direction. We compare the proposed SSF with a common end-to-end direct separation (DS) approach trained using utterance-wise permutation invariant training (PIT), which only implicitly learns to perform spatial filtering. We show that the SSF has a clear advantage over a DS approach with the same underlying network architecture when there are more than two speakers in the mixture, which can be attributed to a better use of the spatial information. Furthermore, we find that the SSF generalizes much better to additional noise sources that were not seen during training and to scenarios with speakers positioned at a similar angle.

arxiv情報

著者 Kristina Tesch,Timo Gerkmann
発行日 2023-11-21 14:59:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク