要約
この論文では、分離された信号による監視なしに音声混合を共同で分離およびダイアライゼーションする遠隔音声認識 (DSR) のためのニューラル手法を紹介します。
マルチトーカー DSR の標準的な分離方法は、ガイド付きソース分離 (GSS) と呼ばれる統計的マルチチャネル方法です。
GSS は信号レベルの監視を必要としませんが、不明な数のアクティブな話者を処理するために話者ダイアライゼーションの結果に依存します。
この制限を克服するために、統計的分離法の目的関数を使用して、弱く教師された方法でニューラル推論モデルを導入してトレーニングします。
このトレーニングに必要なのは、マルチチャネル混合物と、話者アクティビティの時間的注釈のみです。
GSS とは対照的に、トレーニングされたモデルは、補助情報なしで音声混合を共同で分離およびダイアライゼーションできます。
AMI コーパスを使用した実験では、単語誤り率に関するオラクル ダイアライゼーションの結果で、私たちの方法が GSS よりも優れていることが示されています。
コードはオンラインで入手できます。
要約(オリジナル)
This paper presents a neural method for distant speech recognition (DSR) that jointly separates and diarizes speech mixtures without supervision by isolated signals. A standard separation method for multi-talker DSR is a statistical multichannel method called guided source separation (GSS). While GSS does not require signal-level supervision, it relies on speaker diarization results to handle unknown numbers of active speakers. To overcome this limitation, we introduce and train a neural inference model in a weakly-supervised manner, employing the objective function of a statistical separation method. This training requires only multichannel mixtures and their temporal annotations of speaker activities. In contrast to GSS, the trained model can jointly separate and diarize speech mixtures without any auxiliary information. The experiments with the AMI corpus show that our method outperforms GSS with oracle diarization results regarding word error rates. The code is available online.
arxiv情報
著者 | Yoshiaki Bando,Tomohiko Nakamura,Shinji Watanabe |
発行日 | 2024-06-12 16:45:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google