On Data Sampling Strategies for Training Neural Network Speech Separation Models

要約

タイトル:ニューラルネットワーク音声分離モデルのトレーニングにおけるデータサンプリング戦略について

要約:
– 音声分離は、マルチスピーカーの信号処理の重要な分野である。
– 深層ニューラルネットワーク(DNN)モデルは、多くの音声分離ベンチマークで最高のパフォーマンスを達成している。
– これらのモデルはトレーニングに時間がかかるため、トレーニング例を短縮することが提案されているが、その影響はまだよく理解されていない。
– この研究では、2つの音声分離モデル(TransformerモデルであるSepFormerと畳み込みモデルであるConv-TasNet)において、トレーニング信号長(TSL)の制限がモデルのパフォーマンスに与える影響を分析した。
– WJS0-2Mix、WHAMR、Libri2Mixのデータセットを信号長の分布とトレーニング効率の影響について分析した。
– 特定の分布に対して、特定のTSL制限を適用することで、より良いパフォーマンスが得られることが示された。
– これは、ウェーブフォームの開始インデックスをランダムにサンプリングすることで、トレーニングにより多くのユニークな例が得られるためであることが明らかになった。
– 4.42秒のTSL制限とダイナミックミキシング(DM)を使用してトレーニングされたSepFormerモデルは、DMと制限のない信号長でトレーニングされた最高のパフォーマンスを発揮するSepFormerモデルと同等の性能を示した。
– さらに、WHAMRではトレーニング時間が44%短縮された。

要約(オリジナル)

Speech separation remains an important area of multi-speaker signal processing. Deep neural network (DNN) models have attained the best performance on many speech separation benchmarks. Some of these models can take significant time to train and have high memory requirements. Previous work has proposed shortening training examples to address these issues but the impact of this on model performance is not yet well understood. In this work, the impact of applying these training signal length (TSL) limits is analysed for two speech separation models: SepFormer, a transformer model, and Conv-TasNet, a convolutional model. The WJS0-2Mix, WHAMR and Libri2Mix datasets are analysed in terms of signal length distribution and its impact on training efficiency. It is demonstrated that, for specific distributions, applying specific TSL limits results in better performance. This is shown to be mainly due to randomly sampling the start index of the waveforms resulting in more unique examples for training. A SepFormer model trained using a TSL limit of 4.42s and dynamic mixing (DM) is shown to match the best-performing SepFormer model trained with DM and unlimited signal lengths. Furthermore, the 4.42s TSL limit results in a 44% reduction in training time with WHAMR.

arxiv情報

著者 William Ravenscroft,Stefan Goetze,Thomas Hain
発行日 2023-04-14 14:05:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG, cs.NE, cs.SD, eess.AS パーマリンク