要約
タイトル:空間選択的深層非線形フィルタを用いたマルチチャンネル音声分離
要約:
– マルチチャンネル音声分離タスクにおいて、複数の話者からの個々の音声信号を混合から回復することを目的とする。
– 単一チャンネルでは音声信号の周波数・時間的特徴に依存するのに対し、マルチチャンネルアプローチでは、音源の位置情報を利用することで、特に音源が増加した場合により強力な分離を実現することが期待される。
– 本研究では、マルチチャンネル音声分離シナリオにおいて、空間的に定向可能なディープニューラルネットワーク(DNN)ベースの空間選択フィルタ(SSF)を提案する。これにより、ターゲット方向を初期化することで、対象となるスピーカを分離することができる。
– 提案されたSSFを、発話ごとのピリオド不変トレーニング(PIT)を用いてトレーニングされた共通のエンドツーエンドの直接分離(DS)アプローチと比較する。DSアプローチは空間フィルタリングを暗黙的に学習するため、同じ基盤ネットワークアーキテクチャーを持つSSFよりも二つ以上の話者が混在した場合に優れた性能を発揮することが示された。
– さらに、訓練中には見ることができなかった追加のノイズソースについても、SSFがより良い汎化性能を持つことが発見された。
要約(オリジナル)
In a multi-channel separation task with multiple speakers, we aim to recover all individual speech signals from the mixture. In contrast to single-channel approaches, which rely on the different spectro-temporal characteristics of the speech signals, multi-channel approaches should additionally utilize the different spatial locations of the sources for a more powerful separation especially when the number of sources increases. To enhance the spatial processing in a multi-channel source separation scenario, in this work, we propose a deep neural network (DNN) based spatially selective filter (SSF) that can be spatially steered to extract the speaker of interest by initializing a recurrent neural network layer with the target direction. We compare the proposed SSF with a common end-to-end direct separation (DS) approach trained using utterance-wise permutation invariant training (PIT), which only implicitly learns to perform spatial filtering. We show that the SSF has a clear advantage over a DS approach with the same underlying network architecture when there are more than two speakers in the mixture, which can be attributed to a better use of the spatial information. Furthermore, we find that the SSF generalizes much better to additional noise sources that were not seen during training.
arxiv情報
著者 | Kristina Tesch,Timo Gerkmann |
発行日 | 2023-04-24 11:44:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI