要約
シングルチャネルの音声分離アプローチ、乾燥音声混合物は大幅に改善されました。
ただし、現実世界の空間的および反響する音響環境は依然として挑戦的であり、Cochlear Implants(CIS)などの支援聴覚装置のこれらのアプローチの有効性を制限しています。
これに対処するために、音声分離に対する実際の音響シーンの影響を定量化し、空間的キューが分離品質を効率的に向上させる方法を調べます。
暗黙の空間キュー(音響入力に固有のモデルで学習した)および明示的な空間キュー(手動で計算された空間特徴が補助入力として追加された)に基づいてパフォーマンスを分析します。
私たちの調査結果は、空間的に分離された近くの話者との混合物の分離を改善することを示しています。
さらに、声が類似している場合など、スペクトルキューが曖昧な場合、空間のキューは分離を促進します。
暗黙の空間キューが弱い場合、明示的な空間キューは特に有益です。
たとえば、単一のCIマイクの記録は、両側CIよりも弱い暗黙の空間キューを提供しますが、単一のCIでさえ明示的なキューの恩恵を受けます。
これらの結果は、日常のリスニングシナリオの一般化を改善するための実際のデータに対するトレーニングモデルの重要性を強調しています。
さらに、当社の統計分析は、データプロパティがモデルのパフォーマンスにどのように影響するかについての洞察を提供し、実際の設定でのCIやその他の支援デバイスの効率的な音声分離アプローチの開発をサポートします。
要約(オリジナル)
Speech separation approaches for single-channel, dry speech mixtures have significantly improved. However, real-world spatial and reverberant acoustic environments remain challenging, limiting the effectiveness of these approaches for assistive hearing devices like cochlear implants (CIs). To address this, we quantify the impact of real-world acoustic scenes on speech separation and explore how spatial cues can enhance separation quality efficiently. We analyze performance based on implicit spatial cues (inherent in the acoustic input and learned by the model) and explicit spatial cues (manually calculated spatial features added as auxiliary inputs). Our findings show that spatial cues (both implicit and explicit) improve separation for mixtures with spatially separated and nearby talkers. Furthermore, spatial cues enhance separation when spectral cues are ambiguous, such as when voices are similar. Explicit spatial cues are particularly beneficial when implicit spatial cues are weak. For instance, single CI microphone recordings provide weaker implicit spatial cues than bilateral CIs, but even single CIs benefit from explicit cues. These results emphasize the importance of training models on real-world data to improve generalizability in everyday listening scenarios. Additionally, our statistical analyses offer insights into how data properties influence model performance, supporting the development of efficient speech separation approaches for CIs and other assistive devices in real-world settings.
arxiv情報
著者 | Feyisayo Olalere,Kiki van der Heijden,Christiaan H. Stronks,Jeroen Briaire,Johan HM Frijns,Marcel van Gerven |
発行日 | 2025-01-24 16:30:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google