A Training and Inference Strategy Using Noisy and Enhanced Speech as Target for Speech Enhancement without Clean Speech

要約

きれいな音声の欠如は、音声強調システムの開発にとって実際的な課題であり、トレーニング基準と評価基準の間に避けられない不一致があることを意味します。
この不利な状況に対応して、以前に提案されたノイズのあるターゲットトレーニング(NyTT)を改良することにより、強化された音声をターゲットとしてさらに使用するトレーニングおよび推論戦略を提案します。
ドメイン内ノイズと外部ノイズの間の均一性が NyTT の有効性の鍵であるため、1) 強化されたターゲット トレーニング用に教師モデルの推定音声とノイズ、または 2) 生のノイズのある音声と教師モデルの音声をリミックスすることによって、さまざまな生徒モデルをトレーニングします。
ノイズの多いターゲット トレーニングの推定ノイズ。
実験結果は、私たちが提案した方法が、特に教師と生徒の推論でいくつかのベースラインを上回っていることを示しています。この推論では、予測されたきれいな音声が教師と最終的な生徒のモデルを通じて連続的に導出されます。

要約(オリジナル)

The lack of clean speech is a practical challenge to the development of speech enhancement systems, which means that there is an inevitable mismatch between their training criterion and evaluation metric. In response to this unfavorable situation, we propose a training and inference strategy that additionally uses enhanced speech as a target by improving the previously proposed noisy-target training (NyTT). Because homogeneity between in-domain noise and extraneous noise is the key to the effectiveness of NyTT, we train various student models by remixing 1) the teacher model’s estimated speech and noise for enhanced-target training or 2) raw noisy speech and the teacher model’s estimated noise for noisy-target training. Experimental results show that our proposed method outperforms several baselines, especially with the teacher/student inference, where predicted clean speech is derived successively through the teacher and final student models.

arxiv情報

著者 Li-Wei Chen,Yao-Fei Cheng,Hung-Shin Lee,Yu Tsao,Hsin-Min Wang
発行日 2023-05-22 14:02:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS パーマリンク