Mixture Encoder for Joint Speech Separation and Recognition


マルチ話者の自動音声認識 (ASR) は、多くの実世界のアプリケーションにとって重要ですが、専用のモデリング技術が必要です。
モジュラーは個別のスピーカーにアプローチし、単一スピーカーの ASR システムでそれぞれを認識します。
エンドツーエンド モデルは、重複した音声を単一の強力なニューラル ネットワークで直接処理します。
この研究では、モジュール方式と同様に明示的な音声分離を利用するだけでなく、音声分離器によるエラーの伝播を軽減するために、混合音声情報を ASR モジュールに直接組み込む中間的なアプローチを提案しています。
私たちのシステムは個別のトレーニング段階と共同トレーニング段階を通じて最適化されており、SMS-WSJ タスクで純粋にモジュール式のセットアップと比較して単語エラー率で 7% の相対的な改善を達成しています。


Multi-speaker automatic speech recognition (ASR) is crucial for many real-world applications, but it requires dedicated modeling techniques. Existing approaches can be divided into modular and end-to-end methods. Modular approaches separate speakers and recognize each of them with a single-speaker ASR system. End-to-end models process overlapped speech directly in a single, powerful neural network. This work proposes a middle-ground approach that leverages explicit speech separation similarly to the modular approach but also incorporates mixture speech information directly into the ASR module in order to mitigate the propagation of errors made by the speech separator. We also explore a way to exchange cross-speaker context information through a layer that combines information of the individual speakers. Our system is optimized through separate and joint training stages and achieves a relative improvement of 7% in word error rate over a purely modular setup on the SMS-WSJ task.


著者 Simon Berger,Peter Vieting,Christoph Boeddeker,Ralf Schlüter,Reinhold Haeb-Umbach
発行日 2023-06-21 11:01:31+00:00
