要約
自動音声認識(ASR)の多くの実際のアプリケーションでは、重複した音声の処理が必要です。
一般的な方法では、最初に音声をASRが実行されるオーバーラップのないストリームに分離することが含まれます。
最近、TF-Gridnetは、実際の反響条件で音声分離の印象的なパフォーマンスを示しています。
さらに、混合エンコーダが提案され、混合音声を活用して分離アーティファクトの効果を軽減することが提案されました。
この作業では、静的な2スピーカーシナリオから、任意の数のスピーカーとさまざまな程度のオーバーラップを特徴とする自然な会議のコンテキストに混合エンコーダーを拡張しました。
さらに、TF-Gridnetを含むさまざまな強度の分離器との統合により、その限界を示します。
私たちの実験は、単一のマイクを使用したリブリックの新しい最先端のパフォーマンスをもたらします。
彼らは、TF-グリッドネットが、混合エンコーディングとは無関係に以前の方法とOracle分離の間のギャップを大幅に閉じていることを示しています。
さらに、改善の残りの可能性を調査します。
要約(オリジナル)
Many real-life applications of automatic speech recognition (ASR) require processing of overlapped speech. A common method involves first separating the speech into overlap-free streams on which ASR is performed. Recently, TF-GridNet has shown impressive performance in speech separation in real reverberant conditions. Furthermore, a mixture encoder was proposed that leverages the mixed speech to mitigate the effect of separation artifacts. In this work, we extended the mixture encoder from a static two-speaker scenario to a natural meeting context featuring an arbitrary number of speakers and varying degrees of overlap. We further demonstrate its limits by the integration with separators of varying strength including TF-GridNet. Our experiments result in a new state-of-the-art performance on LibriCSS using a single microphone. They show that TF-GridNet largely closes the gap between previous methods and oracle separation independent of mixture encoding. We further investigate the remaining potential for improvement.
arxiv情報
著者 | Peter Vieting,Simon Berger,Thilo von Neumann,Christoph Boeddeker,Ralf Schlüter,Reinhold Haeb-Umbach |
発行日 | 2025-02-26 15:28:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google