Keep Decoding Parallel with Effective Knowledge Distillation from Language Models to End-to-end Speech Recognisers

要約

この研究では、中間層を使用した BERT 教師モデルから自動音声認識 (ASR) モデルへの知識蒸留 (KD) の新しいアプローチを紹介します。
教師の知識を抽出するために、BERT のトークン確率から学習するアテンション デコーダーを使用します。
私たちの方法は、中間層と最終層の両方を使用して、言語モデル (LM) 情報をより効果的に ASR モデルに抽出できることを示しています。
中間層を蒸留ターゲットとして使用することにより、LM の知識をより効果的に下位のネットワーク層に蒸留できます。
私たちの方法を使用すると、外部 LM の浅い融合よりも優れた認識精度が達成され、高速な並列デコードを維持できるようになります。
LibriSpeech データセットの実験は、コネクショニスト時間分類 (CTC) を使用した貪欲なデコードの強化における私たちのアプローチの有効性を示しています。

要約(オリジナル)

This study presents a novel approach for knowledge distillation (KD) from a BERT teacher model to an automatic speech recognition (ASR) model using intermediate layers. To distil the teacher’s knowledge, we use an attention decoder that learns from BERT’s token probabilities. Our method shows that language model (LM) information can be more effectively distilled into an ASR model using both the intermediate layers and the final layer. By using the intermediate layers as distillation target, we can more effectively distil LM knowledge into the lower network layers. Using our method, we achieve better recognition accuracy than with shallow fusion of an external LM, allowing us to maintain fast parallel decoding. Experiments on the LibriSpeech dataset demonstrate the effectiveness of our approach in enhancing greedy decoding with connectionist temporal classification (CTC).

arxiv情報

著者 Michael Hentschel,Yuta Nishikawa,Tatsuya Komatsu,Yusuke Fujita
発行日 2024-01-22 05:46:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク