要約
ディープ ニューラル ネットワーク ベースの音声強調アプローチは、教師あり学習パラダイムを使用してノイズからクリーンへの変換を学習することを目的としています。
ただし、このようなトレーニング済みの変換は、トレーニング セットに含まれていない目に見えないノイズに対して脆弱です。
この作業では、ターゲットドメインデータのグラウンドトゥルースが完全に利用できない音声強調における教師なしノイズ適応問題に焦点を当てています。
具体的には、数分間の対になっていないターゲットドメインデータを使用して、逆のクリーンからノイズへの変換を効率的に学習するための、敵対的生成ネットワークベースの方法を提案します。
次に、この変換を利用して、拡張モデルのドメイン適応に十分なシミュレートされたデータを生成します。
実験結果は、私たちの方法がトレーニング セットとテスト セットの間のドメインの不一致を効果的に軽減し、最良のベースラインを大幅に上回ることを示しています。
要約(オリジナル)
Deep neural network based speech enhancement approaches aim to learn a noisy-to-clean transformation using a supervised learning paradigm. However, such a trained-well transformation is vulnerable to unseen noises that are not included in training set. In this work, we focus on the unsupervised noise adaptation problem in speech enhancement, where the ground truth of target domain data is completely unavailable. Specifically, we propose a generative adversarial network based method to efficiently learn a converse clean-to-noisy transformation using a few minutes of unpaired target domain data. Then this transformation is utilized to generate sufficient simulated data for domain adaptation of the enhancement model. Experimental results show that our method effectively mitigates the domain mismatch between training and test sets, and surpasses the best baseline by a large margin.
arxiv情報
著者 | Chen Chen,Yuchen Hu,Heqing Zou,Linhui Sun,Eng Siong Chng |
発行日 | 2023-02-23 12:57:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google