A DNN based Normalized Time-frequency Weighted Criterion for Robust Wideband DoA Estimation


ディープ ニューラル ネットワーク (DNN) は、ノイズの多い環境での発話源位置特定のための到着方向 (DoA) 推定方法に大きな恩恵をもたらしました。
干渉に対するロバスト性を向上させるために、DNN ベースの正規化された時間-周波数 (T-F) 加重基準を提案します。これは、T-F ドメインで候補ステアリング ベクトルとフィルター処理されたスナップショットの間の距離を最小化します。
また、DNN によって導かれる T-F 重みのさまざまな設計についても調べます。
ただし、一般に、T-F 重みの最適な設計は基準に依存します。
実験は、提案された方法が、騒がしく残響のある環境で広く使用されている部分空間法を含む、一般的な DNN ベースの DoA 推定方法よりも優れていることを示しています。


Deep neural networks (DNNs) have greatly benefited direction of arrival (DoA) estimation methods for speech source localization in noisy environments. However, their localization accuracy is still far from satisfactory due to the vulnerability to nonspeech interference. To improve the robustness against interference, we propose a DNN based normalized time-frequency (T-F) weighted criterion which minimizes the distance between the candidate steering vectors and the filtered snapshots in the T-F domain. Our method requires no eigendecomposition and uses a simple normalization to prevent the optimization objective from being misled by noisy filtered snapshots. We also study different designs of T-F weights guided by a DNN. We find that duplicating the Hadamard product of speech ratio masks is highly effective and better than other techniques such as direct masking and taking the mean in the proposed approach. However, the best-performing design of T-F weights is criterion-dependent in general. Experiments show that the proposed method outperforms popular DNN based DoA estimation methods including widely used subspace methods in noisy and reverberant environments.


著者 Kuan-Lin Chen,Ching-Hua Lee,Bhaskar D. Rao,Harinath Garudadri
発行日 2023-02-20 18:26:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP パーマリンク