要約
シングルチャネル音声分離は、マルチスピーカー環境で音声認識システムを強化するための重要なタスクです。
この論文では、話者間のピッチ差が最小限であるシナリオにおける最先端のニューラル ネットワーク モデルの堅牢性を調査します。
同様のピッチ条件下で 2018 Chimera++ のパフォーマンスが大幅に低下することを特定した Ditter と Gerkmann による以前の調査結果に基づいて、私たちの研究は分析をより最近の洗練されたニューラル ネットワーク モデルに拡張しました。
私たちの実験では、最新のモデルでは、トレーニングとテストの条件を一致させた場合のパフォーマンスのギャップが大幅に減少していることが明らかになりました。
ただし、不一致の条件下では大きなパフォーマンスのギャップが残り、モデルはピッチの差が大きい場合は良好なパフォーマンスを示しますが、スピーカーのピッチが類似している場合はパフォーマンスが低下します。
これらの発見は、同様のピッチの話者や目に見えないデータに対する音声分離モデルの一般化可能性についてのさらなる研究の動機となります。
要約(オリジナル)
Single-channel speech separation is a crucial task for enhancing speech recognition systems in multi-speaker environments. This paper investigates the robustness of state-of-the-art Neural Network models in scenarios where the pitch differences between speakers are minimal. Building on earlier findings by Ditter and Gerkmann, which identified a significant performance drop for the 2018 Chimera++ under similar-pitch conditions, our study extends the analysis to more recent and sophisticated Neural Network models. Our experiments reveal that modern models have substantially reduced the performance gap for matched training and testing conditions. However, a substantial performance gap persists under mismatched conditions, with models performing well for large pitch differences but showing worse performance if the speakers’ pitches are similar. These findings motivate further research into the generalizability of speech separation models to similar-pitch speakers and unseen data.
arxiv情報
著者 | Bunlong Lay,Sebastian Zaczek,Kristina Tesch,Timo Gerkmann |
発行日 | 2024-07-22 15:55:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google