要約
ディープ ニューラル ネットワーク (DNN) は、ノイズの多い環境での発話源位置特定のための到着方向 (DoA) 推定方法に大きな恩恵をもたらしました。
ただし、音声以外の干渉に対する脆弱性があるため、ローカリゼーションの精度はまだ満足のいくものではありません。
干渉に対するロバスト性を向上させるために、DNN ベースの正規化された時間-周波数 (T-F) 加重基準を提案します。これは、T-F ドメインで候補ステアリング ベクトルとフィルター処理されたスナップショットの間の距離を最小化します。
私たちの方法は固有値分解を必要とせず、単純な正規化を使用して、ノイズの多いフィルタリングされたスナップショットによって最適化の目的が誤解されるのを防ぎます。
また、DNN によって導かれる T-F 重みのさまざまな設計についても調べます。
スピーチ比マスクのアダマール積を複製することは、提案されたアプローチで直接マスキングや平均を取るなどの他の手法よりも非常に効果的で優れていることがわかります。
ただし、一般に、T-F 重みの最適な設計は基準に依存します。
実験は、提案された方法が、騒がしく残響のある環境で広く使用されている部分空間法を含む、一般的な DNN ベースの DoA 推定方法よりも優れていることを示しています。
要約(オリジナル)
Deep neural networks (DNNs) have greatly benefited direction of arrival (DoA) estimation methods for speech source localization in noisy environments. However, their localization accuracy is still far from satisfactory due to the vulnerability to nonspeech interference. To improve the robustness against interference, we propose a DNN based normalized time-frequency (T-F) weighted criterion which minimizes the distance between the candidate steering vectors and the filtered snapshots in the T-F domain. Our method requires no eigendecomposition and uses a simple normalization to prevent the optimization objective from being misled by noisy filtered snapshots. We also study different designs of T-F weights guided by a DNN. We find that duplicating the Hadamard product of speech ratio masks is highly effective and better than other techniques such as direct masking and taking the mean in the proposed approach. However, the best-performing design of T-F weights is criterion-dependent in general. Experiments show that the proposed method outperforms popular DNN based DoA estimation methods including widely used subspace methods in noisy and reverberant environments.
arxiv情報
著者 | Kuan-Lin Chen,Ching-Hua Lee,Bhaskar D. Rao,Harinath Garudadri |
発行日 | 2023-02-20 18:26:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google