Mask-Weighted Spatial Likelihood Coding for Speaker-Independent Joint Localization and Mask Estimation

要約

ニューラル駆動ビームフォーマーは、その堅牢性と柔軟性により、ノイズや残響とともに同時スピーカーの数が変化する困難な環境で音声を分離するための一般的な選択肢です。
時間周波数マスクと固定空間グリッドに関するスピーカーの相対方向を使用して、ビームフォーマーのパラメーターを推定できます。
ある程度、話者の独立性は、音声ソースよりも多くの空間パーティションを確保することによって達成されます。
この研究では、マスクと位置決めの両方をそのようなグリッドにエンコードして、両方の量の共同推定を可能にする方法を分析します。
我々は、マスク重み付け空間尤度コーディングを提案し、位置特定またはマスク推定のいずれかに対して最適化されたベースライン エンコーディングと比較して、両方のタスクでかなりのパフォーマンスを達成することを示します。
同じ設定で、両方の量の同時推定の優位性を実証します。
最終的に、トレーニング フレームワークを適応させるだけで上流の音源定位システムを置き換えることができ、パフォーマンスが重要なシナリオに高度に関連する普遍的なアプローチを提案します。

要約(オリジナル)

Due to their robustness and flexibility, neural-driven beamformers are a popular choice for speech separation in challenging environments with a varying amount of simultaneous speakers alongside noise and reverberation. Time-frequency masks and relative directions of the speakers regarding a fixed spatial grid can be used to estimate the beamformer’s parameters. To some degree, speaker-independence is achieved by ensuring a greater amount of spatial partitions than speech sources. In this work, we analyze how to encode both mask and positioning into such a grid to enable joint estimation of both quantities. We propose mask-weighted spatial likelihood coding and show that it achieves considerable performance in both tasks compared to baseline encodings optimized for either localization or mask estimation. In the same setup, we demonstrate superiority for joint estimation of both quantities. Conclusively, we propose a universal approach which can replace an upstream sound source localization system solely by adapting the training framework, making it highly relevant in performance-critical scenarios.

arxiv情報

著者 Jakob Kienegger,Alina Mannanova,Timo Gerkmann
発行日 2024-10-25 14:43:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク