Robust Knowledge Distillation from RNN-T Models With Noisy Training Labels Using Full-Sum Loss

要約

この作業では、知識の蒸留 (KD) を研究し、リカレント ニューラル ネットワーク トランスデューサー (RNN-T) モデルの制約に対処します。
ハード蒸留では、教師モデルがラベルのない大量の音声を書き起こし、生徒モデルをトレーニングします。
軟蒸留は、教師モデルの出力ロジットを蒸留するもう 1 つの一般的な KD 法です。
RNN-T アラインメントの性質上、異なる事後分布を持つ RNN-T アーキテクチャ間でソフト蒸留を適用することは困難です。
さらに、単語誤り率 (WER) が高い悪い教師は、KD の有効性を低下させます。
私たちは、これまで研究されたことのないさまざまな質の ASR 教師から知識を効果的に抽出する方法を調査します。
シーケンス レベルの KD、フルサム蒸留は、RNN-T モデル、特に悪い教師の場合、他の蒸留方法よりも優れていることを示します。
また、WERのさらなる改善につながる教師のシーケンス識別知識を蒸留するフルサム蒸留の変形も提案します。
SpeechStew と LibriSpeech という公開データセットと、社内の生産データで実験を行っています。

要約(オリジナル)

This work studies knowledge distillation (KD) and addresses its constraints for recurrent neural network transducer (RNN-T) models. In hard distillation, a teacher model transcribes large amounts of unlabelled speech to train a student model. Soft distillation is another popular KD method that distills the output logits of the teacher model. Due to the nature of RNN-T alignments, applying soft distillation between RNN-T architectures having different posterior distributions is challenging. In addition, bad teachers having high word-error-rate (WER) reduce the efficacy of KD. We investigate how to effectively distill knowledge from variable quality ASR teachers, which has not been studied before to the best of our knowledge. We show that a sequence-level KD, full-sum distillation, outperforms other distillation methods for RNN-T models, especially for bad teachers. We also propose a variant of full-sum distillation that distills the sequence discriminative knowledge of the teacher leading to further improvement in WER. We conduct experiments on public datasets namely SpeechStew and LibriSpeech, and on in-house production data.

arxiv情報

著者 Mohammad Zeineldeen,Kartik Audhkhasi,Murali Karthick Baskar,Bhuvana Ramabhadran
発行日 2023-03-10 14:46:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS, stat.ML パーマリンク