要約
複数話者による音声認識(MTASR)は、重複音声の分離と書き起こしにおいて独自の課題に直面している。これらの課題に対処するため、本論文では、MTASRにSerialized Output Training (SOT)を組み込んだ場合の話者の分離におけるコネクショニスト時間分類(CTC)の役割を調査する。我々の可視化により、CTCはエンコーダが音響埋込みの異なる時間領域で異なる話者を表現するよう導くことが明らかになった。この洞察を活用し、ベイズリスクCTCフレームワークに基づいて、新しい話者対応CTC(SACTC)訓練目的を提案する。SACTCはマルチトーカーシナリオ用に調整されたCTCバリエーションであり、特定の時間フレームで異なる話者のトークンを表現するようにエンコーダを制約することで、話者の分離を明示的にモデル化する。SOTと統合した場合、SOT-SACTCモデルは様々な音声の重複度において、標準的なSOT-CTCを一貫して上回る。具体的には、相対的な単語誤り率が全体で10%、重なりの少ない音声では15%減少した。この研究は、MTASRタスクにおけるCTCベースの機能拡張の初期段階であり、複数話者音声認識における話者の分離に関する新しい視点を提供するものである。コードはhttps://github.com/kjw11/Speaker-Aware-CTC。
要約(オリジナル)
Multi-talker speech recognition (MTASR) faces unique challenges in disentangling and transcribing overlapping speech. To address these challenges, this paper investigates the role of Connectionist Temporal Classification (CTC) in speaker disentanglement when incorporated with Serialized Output Training (SOT) for MTASR. Our visualization reveals that CTC guides the encoder to represent different speakers in distinct temporal regions of acoustic embeddings. Leveraging this insight, we propose a novel Speaker-Aware CTC (SACTC) training objective, based on the Bayes risk CTC framework. SACTC is a tailored CTC variant for multi-talker scenarios, it explicitly models speaker disentanglement by constraining the encoder to represent different speakers’ tokens at specific time frames. When integrated with SOT, the SOT-SACTC model consistently outperforms standard SOT-CTC across various degrees of speech overlap. Specifically, we observe relative word error rate reductions of 10% overall and 15% on low-overlap speech. This work represents an initial exploration of CTC-based enhancements for MTASR tasks, offering a new perspective on speaker disentanglement in multi-talker speech recognition. The code is available at https://github.com/kjw11/Speaker-Aware-CTC.
arxiv情報
著者 | Jiawen Kang,Lingwei Meng,Mingyu Cui,Yuejiao Wang,Xixin Wu,Xunying Liu,Helen Meng |
発行日 | 2025-01-03 12:36:25+00:00 |
arxivサイト | arxiv_id(pdf) |