要約
ストリーミング自動音声認識 (ASR) モデルは、将来のコンテキストへのアクセスが制限されるため、非ストリーミング モデルと比較してパフォーマンスが低下します。
ストリーミング ASR のパフォーマンスを向上させるために、主に出力トークンの確率を調整することに焦点を当てて、非ストリーミング モデルからストリーミング モデルへの知識蒸留 (KD) が研究されてきました。
この論文では、教師エンコーダーから生徒エンコーダーへのレイヤー間の KD を提案します。
同じコンテキストを使用して特徴が抽出されることを保証するために、補助的な非ストリーミング ブランチを生徒に挿入し、非ストリーミング教師層から非ストリーミング補助層への KD を実行します。
私たちは、自己回帰予測コーディング (APC) メカニズムを利用して、ストリーミング モデルが目に見えない将来のコンテキストを予測することを促進する特別な KD 損失を設計します。
実験結果は、提案された方法が以前のトークン確率蒸留方法と比較して単語誤り率を大幅に低減できることを示しています。
要約(オリジナル)
Streaming automatic speech recognition (ASR) models are restricted from accessing future context, which results in worse performance compared to the non-streaming models. To improve the performance of streaming ASR, knowledge distillation (KD) from the non-streaming to streaming model has been studied, mainly focusing on aligning the output token probabilities. In this paper, we propose a layer-to-layer KD from the teacher encoder to the student encoder. To ensure that features are extracted using the same context, we insert auxiliary non-streaming branches to the student and perform KD from the non-streaming teacher layer to the non-streaming auxiliary layer. We design a special KD loss that leverages the autoregressive predictive coding (APC) mechanism to encourage the streaming model to predict unseen future contexts. Experimental results show that the proposed method can significantly reduce the word error rate compared to previous token probability distillation methods.
arxiv情報
著者 | Kyuhong Shim,Jinkyu Lee,Simyung Chang,Kyuwoong Hwang |
発行日 | 2023-08-31 02:58:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google