要約
自動音声認識 (ASR) の現実のアプリケーションの多くは、重複した音声の処理を必要とします。
一般的な方法では、最初に音声を重複のないストリームに分離し、次に結果の信号に対して ASR を実行します。
最近、ASR モデルに混合エンコーダを含めることが提案されています。
この混合エンコーダは、元の重複した音声を利用して、音声の分離によって生じるアーティファクトの影響を軽減します。
ただし、以前は、この方法は 2 人の話者のシナリオのみに対応していました。
この取り組みでは、このアプローチを、任意の数の発言者と動的な重複を特徴とする、より自然な会議コンテキストに拡張します。
強力な TF-GridNet モデルを含む、さまざまな音声分離器を使用してパフォーマンスを評価します。
私たちの実験は、LibriCSS データセットでの最先端のパフォーマンスを示し、混合エンコーダーの利点を強調しています。
さらに、これらは、以前の方法とオラクルの分離との間のギャップを大幅に埋める TF-GridNet の強力な分離を示しています。
要約(オリジナル)
Many real-life applications of automatic speech recognition (ASR) require processing of overlapped speech. A commonmethod involves first separating the speech into overlap-free streams and then performing ASR on the resulting signals. Recently, the inclusion of a mixture encoder in the ASR model has been proposed. This mixture encoder leverages the original overlapped speech to mitigate the effect of artifacts introduced by the speech separation. Previously, however, the method only addressed two-speaker scenarios. In this work, we extend this approach to more natural meeting contexts featuring an arbitrary number of speakers and dynamic overlaps. We evaluate the performance using different speech separators, including the powerful TF-GridNet model. Our experiments show state-of-the-art performance on the LibriCSS dataset and highlight the advantages of the mixture encoder. Furthermore, they demonstrate the strong separation of TF-GridNet which largely closes the gap between previous methods and oracle separation.
arxiv情報
著者 | Peter Vieting,Simon Berger,Thilo von Neumann,Christoph Boeddeker,Ralf Schlüter,Reinhold Haeb-Umbach |
発行日 | 2023-09-15 14:57:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google