Serialized Speech Information Guidance with Overlapped Encoding Separation for Multi-Speaker Automatic Speech Recognition

要約

シリアル化出力トレーニング (SOT) は、マルチ話者の自動音声認識 (ASR) の利便性と柔軟性により、ますます注目を集めています。
しかし、注意力の低下だけをトレーニングするのは簡単ではありません。
この論文では、コネクショニスト時間分類 (CTC) と注意ハイブリッド損失の利点を最大限に活用するために、重複符号化分離 (EncSep) を提案します。
この追加のセパレータは、CTC 損失を含むマルチスピーカー情報を抽出するためにエンコーダの後に挿入されます。
さらに、分離されたエンコーディングをさらに活用するために、シリアル化された音声情報ガイダンス SOT (GEncSep) を提案します。
分離されたストリームは連結されて、デコード中に注意を促すための単一話者の情報を提供します。
LibriMix での実験結果は、単一話者のエンコーディングをオーバーラップしたエンコーディングから分離できることを示しています。
CTC 損失は、複雑なシナリオでのエンコーダ表現の改善に役立ちます。
GEncSep によりパフォーマンスがさらに向上しました。

要約(オリジナル)

Serialized output training (SOT) attracts increasing attention due to its convenience and flexibility for multi-speaker automatic speech recognition (ASR). However, it is not easy to train with attention loss only. In this paper, we propose the overlapped encoding separation (EncSep) to fully utilize the benefits of the connectionist temporal classification (CTC) and attention hybrid loss. This additional separator is inserted after the encoder to extract the multi-speaker information with CTC losses. Furthermore, we propose the serialized speech information guidance SOT (GEncSep) to further utilize the separated encodings. The separated streams are concatenated to provide single-speaker information to guide attention during decoding. The experimental results on LibriMix show that the single-speaker encoding can be separated from the overlapped encoding. The CTC loss helps to improve the encoder representation under complex scenarios. GEncSep further improved performance.

arxiv情報

著者 Hao Shi,Yuan Gao,Zhaoheng Ni,Tatsuya Kawahara
発行日 2024-09-05 16:15:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク