要約
エンドツーエンドのマルチ話者音声認識は、複数の話者からの重複した音声を直接転写する効果的なアプローチとして大きな関心を集めています。
現在の手法は通常、1) 分岐エンコーダーを備えた単一入力複数出力 (SIMO) モデル、または 2) シリアル化された出力トレーニング (SOT) を備えたアテンションベースのエンコーダー/デコーダー アーキテクチャに基づく単一入力単一出力 (SISO) モデルのいずれかを採用しています。
)。
この研究では、クロススピーカー表現を集約することで SIMO モデルの制限に対処するクロススピーカー エンコーディング (CSE) ネットワークを提案します。
さらに、CSE モデルは SOT と統合されており、SIMO と SISO の両方の利点を活用しながら、それらの欠点を軽減します。
私たちの知る限り、この研究は、複数話者の音声認識のために SIMO と SISO を統合する初期の取り組みを表しています。
2 話者の LibrispeechMix データセットの実験では、CES モデルが SIMO ベースラインよりも単語誤り率 (WER) を 8% 削減することが示されています。
CSE-SOT モデルは、SOT モデルと比較して、WER を全体で 10% 削減し、重複の多い音声では 16% 削減します。
コードは https://github.com/kjw11/CSEnet-ASR で入手できます。
要約(オリジナル)
End-to-end multi-talker speech recognition has garnered great interest as an effective approach to directly transcribe overlapped speech from multiple speakers. Current methods typically adopt either 1) single-input multiple-output (SIMO) models with a branched encoder, or 2) single-input single-output (SISO) models based on attention-based encoder-decoder architecture with serialized output training (SOT). In this work, we propose a Cross-Speaker Encoding (CSE) network to address the limitations of SIMO models by aggregating cross-speaker representations. Furthermore, the CSE model is integrated with SOT to leverage both the advantages of SIMO and SISO while mitigating their drawbacks. To the best of our knowledge, this work represents an early effort to integrate SIMO and SISO for multi-talker speech recognition. Experiments on the two-speaker LibrispeechMix dataset show that the CES model reduces word error rate (WER) by 8% over the SIMO baseline. The CSE-SOT model reduces WER by 10% overall and by 16% on high-overlap speech compared to the SOT model. Code is available at https://github.com/kjw11/CSEnet-ASR.
arxiv情報
著者 | Jiawen Kang,Lingwei Meng,Mingyu Cui,Haohan Guo,Xixin Wu,Xunying Liu,Helen Meng |
発行日 | 2024-07-22 12:14:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google