要約
最近提案されたシリアル化出力トレーニング (SOT) は、特殊なトークンで区切られた話者のトランスクリプションを生成することにより、複数話者の自動音声認識 (ASR) を簡素化します。
ただし、話者が頻繁に変更されると、話者の変更の予測が困難になる場合があります。
これに対処するために、話者変更検出タスクと境界制約損失を通じて境界知識をデコーダに明示的に組み込む、境界を意識したシリアル化出力トレーニング (BA-SOT) を提案します。
また、時間コンテキスト情報を復元するためにトークンレベルの SOT CTC を組み込んだ 2 段階のコネクショニスト時間分類 (CTC) 戦略も導入します。
典型的な文字誤り率 (CER) に加えて、話者変更予測の精度をさらに測定するために、発話依存文字誤り率 (UD-CER) を導入します。
元の SOT と比較して、BA-SOT は CER/UD-CER を 5.1%/14.0% 削減し、BA-SOT モデルの初期化に事前トレーニングされた ASR モデルを活用することで、CER/UD-CER をさらに 8.4%/19.9% 削減します。
要約(オリジナル)
The recently proposed serialized output training (SOT) simplifies multi-talker automatic speech recognition (ASR) by generating speaker transcriptions separated by a special token. However, frequent speaker changes can make speaker change prediction difficult. To address this, we propose boundary-aware serialized output training (BA-SOT), which explicitly incorporates boundary knowledge into the decoder via a speaker change detection task and boundary constraint loss. We also introduce a two-stage connectionist temporal classification (CTC) strategy that incorporates token-level SOT CTC to restore temporal context information. Besides typical character error rate (CER), we introduce utterance-dependent character error rate (UD-CER) to further measure the precision of speaker change prediction. Compared to original SOT, BA-SOT reduces CER/UD-CER by 5.1%/14.0%, and leveraging a pre-trained ASR model for BA-SOT model initialization further reduces CER/UD-CER by 8.4%/19.9%.
arxiv情報
著者 | Yuhao Liang,Fan Yu,Yangze Li,Pengcheng Guo,Shiliang Zhang,Qian Chen,Lei Xie |
発行日 | 2023-10-05 11:44:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google