UNSSOR: Unsupervised Neural Speech Separation by Leveraging Over-determined Training Mixtures

要約

複数のスピーカーが同時に存在する残響状態では、各マイクは異なる場所にある複数のスピーカーの混合信号を取得します。
マイクの数が話者の数を上回る過剰決定条件では、各混合信号を制約として利用することで、解を話者の画像に絞り込み、教師なしの音声分離を実現できます (つまり、マイクでの推定された話者の画像の合計は、
混合)。
この洞察をもとに、$\textbf{u}$n教師あり$\textbf{n}$eural $\textbf{s}$peech $\textbf{s}$分離のためのアルゴリズムであるUNSSORを提案します。
o}$ver で決定されたトレーニング mixtu$\textbf{r}$es。
各トレーニング ステップで、入力混合をディープ ニューラル ネットワーク (DNN) に供給して、各話者の中間推定値を生成し、推定値を線形にフィルタリングして、各マイクですべての話者のフィルタリングされた推定値が得られるように損失を最適化します。
混合物を合計すると、上記の制約を満たすことができます。
この損失により、教師なしの話者の分離が促進される可能性があることを示します。
線形フィルターは、前方畳み込み予測 (FCP) アルゴリズムによる混合と DNN 推定に基づいて各サブバンドで計算されます。
サブバンド FCP の使用によって発生する周波数順列問題に対処するために、ソース内振幅散乱の最小化に基づく損失項が提案されています。
UNSSOR は過剰決定されたトレーニング混合物を必要としますが、過小決定された分離 (教師なしモノラル音声分離など) を達成するように DNN をトレーニングすることができます。
残響環境における 2 つのスピーカーの分離に関する評価結果は、UNSSOR の有効性と可能性を示しています。

要約(オリジナル)

In reverberant conditions with multiple concurrent speakers, each microphone acquires a mixture signal of multiple speakers at a different location. In over-determined conditions where the microphones out-number speakers, we can narrow down the solutions to speaker images and realize unsupervised speech separation by leveraging each mixture signal as a constraint (i.e., the estimated speaker images at a microphone should add up to the mixture). Equipped with this insight, we propose UNSSOR, an algorithm for $\textbf{u}$nsupervised $\textbf{n}$eural $\textbf{s}$peech $\textbf{s}$eparation by leveraging $\textbf{o}$ver-determined training mixtu$\textbf{r}$es. At each training step, we feed an input mixture to a deep neural network (DNN) to produce an intermediate estimate for each speaker, linearly filter the estimates, and optimize a loss so that, at each microphone, the filtered estimates of all the speakers can add up to the mixture to satisfy the above constraint. We show that this loss can promote unsupervised separation of speakers. The linear filters are computed in each sub-band based on the mixture and DNN estimates through the forward convolutive prediction (FCP) algorithm. To address the frequency permutation problem incurred by using sub-band FCP, a loss term based on minimizing intra-source magnitude scattering is proposed. Although UNSSOR requires over-determined training mixtures, we can train DNNs to achieve under-determined separation (e.g., unsupervised monaural speech separation). Evaluation results on two-speaker separation in reverberant conditions show the effectiveness and potential of UNSSOR.

arxiv情報

著者 Zhong-Qiu Wang,Shinji Watanabe
発行日 2023-05-31 17:28:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク