要約
一般的な耐ノイズ性および耐残響性定位アルゴリズムは、主に、話者のアイデンティティとは関係なく、マルチスピーカーのシナリオで各話者に指向性出力を分離して提供することに重点を置いています。この論文では、選択的聴覚を備えたターゲット話者定位アルゴリズムを紹介します。
機構。
ターゲット話者の基準音声が与えられると、まず話者依存のスペクトログラム マスクを作成して、干渉する話者の音声を除去します。
続いて、長期短期記憶 (LSTM) ネットワークを使用して、フィルター処理されたスペクトログラムからターゲット話者の位置を抽出します。
実験により、さまざまなスケール不変信号対雑音比 (SNR) 条件に対して、既存のアルゴリズムに対する提案手法の優位性が検証されます。
具体的には、SNR = -10 dB で、私たちが提案するネットワーク LocSelect は 3.55 の平均絶対誤差 (MAE) と 87.40% の精度 (ACC) を達成します。
要約(オリジナル)
The prevailing noise-resistant and reverberation-resistant localization algorithms primarily emphasize separating and providing directional output for each speaker in multi-speaker scenarios, without association with the identity of speakers.In this paper, we present a target speaker localization algorithm with a selective hearing mechanism. Given a reference speech of the target speaker, we first produce a speaker-dependent spectrogram mask to eliminate interfering speakers’ speech. Subsequently, a Long short-term memory (LSTM) network is employed to extract the target speaker’s location from the filtered spectrogram. Experiments validate the superiority of our proposed method over the existing algorithms for different scale invariant signal-to-noise ratios (SNR) conditions. Specifically, at SNR = -10 dB, our proposed network LocSelect achieves a mean absolute error (MAE) of 3.55 and an accuracy (ACC) of 87.40%.
arxiv情報
著者 | Yu Chen,Xinyuan Qian,Zexu Pan,Kainan Chen,Haizhou Li |
発行日 | 2023-10-16 15:19:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google