要約
音声分離モデルは、多くの音声処理アプリケーションで個々の話者を分離するために使用されます。
ディープ ラーニング モデルは、多くの音声分離ベンチマークで最先端 (SOTA) の結果をもたらすことが示されています。
時間畳み込みネットワーク (TCN) として知られるそのようなモデルのクラスの 1 つは、音声分離タスクに対して有望な結果を示しています。
これらのモデルの制限は、受容野 (RF) が固定されていることです。
音声残響除去に関する最近の研究では、TCN の最適な RF は音声信号の残響特性によって異なることが示されています。
この作業では、残響音声分離のためにさまざまな残響時間に適応できる動的な RF を TCN モデルに持たせるためのソリューションとして、変形可能な畳み込みが提案されています。
提案されたモデルは、WHAMR ベンチマークの入力信号に対して平均 11.1 dB のスケール不変信号対歪み比 (SISDR) の改善を達成することができます。
1.3M パラメーターの比較的小さな変形可能な TCN モデルが提案されており、より大きく計算が複雑なモデルに匹敵する分離性能が得られます。
要約(オリジナル)
Speech separation models are used for isolating individual speakers in many speech processing applications. Deep learning models have been shown to lead to state-of-the-art (SOTA) results on a number of speech separation benchmarks. One such class of models known as temporal convolutional networks (TCNs) has shown promising results for speech separation tasks. A limitation of these models is that they have a fixed receptive field (RF). Recent research in speech dereverberation has shown that the optimal RF of a TCN varies with the reverberation characteristics of the speech signal. In this work deformable convolution is proposed as a solution to allow TCN models to have dynamic RFs that can adapt to various reverberation times for reverberant speech separation. The proposed models are capable of achieving an 11.1 dB average scale-invariant signalto-distortion ratio (SISDR) improvement over the input signal on the WHAMR benchmark. A relatively small deformable TCN model of 1.3M parameters is proposed which gives comparable separation performance to larger and more computationally complex models.
arxiv情報
著者 | William Ravenscroft,Stefan Goetze,Thomas Hain |
発行日 | 2023-03-10 16:14:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google