Combining TF-GridNet and Mixture Encoder for Continuous Speech Separation for Meeting Transcription

要約

自動音声認識(ASR)の多くの実際のアプリケーションでは、重複した音声の処理が必要です。
一般的な方法では、最初に音声をASRが実行されるオーバーラップのないストリームに分離することが含まれます。
最近、TF-Gridnetは、実際の反響条件で音声分離の印象的なパフォーマンスを示しています。
さらに、混合エンコーダが提案され、混合音声を活用して分離アーティファクトの効果を軽減することが提案されました。
この作業では、静的な2スピーカーシナリオから、任意の数のスピーカーとさまざまな程度のオーバーラップを特徴とする自然な会議のコンテキストに混合エンコーダーを拡張しました。
さらに、TF-Gridnetを含むさまざまな強度の分離器との統合により、その限界を示します。
私たちの実験は、単一のマイクを使用したリブリックの新しい最先端のパフォーマンスをもたらします。
彼らは、TF-グリッドネットが、混合エンコーディングとは無関係に以前の方法とOracle分離の間のギャップを大幅に閉じていることを示しています。
さらに、改善の残りの可能性を調査します。

要約(オリジナル)

Many real-life applications of automatic speech recognition (ASR) require processing of overlapped speech. A common method involves first separating the speech into overlap-free streams on which ASR is performed. Recently, TF-GridNet has shown impressive performance in speech separation in real reverberant conditions. Furthermore, a mixture encoder was proposed that leverages the mixed speech to mitigate the effect of separation artifacts. In this work, we extended the mixture encoder from a static two-speaker scenario to a natural meeting context featuring an arbitrary number of speakers and varying degrees of overlap. We further demonstrate its limits by the integration with separators of varying strength including TF-GridNet. Our experiments result in a new state-of-the-art performance on LibriCSS using a single microphone. They show that TF-GridNet largely closes the gap between previous methods and oracle separation independent of mixture encoding. We further investigate the remaining potential for improvement.

arxiv情報

著者 Peter Vieting,Simon Berger,Thilo von Neumann,Christoph Boeddeker,Ralf Schlüter,Reinhold Haeb-Umbach
発行日 2025-02-26 15:28:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク