Reducing the gap between streaming and non-streaming Transducer-based ASR by adaptive two-stage knowledge distillation

要約

Transducer は、ストリーミング音声認識の主流のフレームワークの 1 つです。
コンテキストが限られているため、ストリーミング トランスデューサ モデルと非ストリーミング トランスデューサ モデルの間にはパフォーマンスのギャップがあります。
このギャップを減らすための効果的な方法は、隠れた分布と出力された分布の一貫性を確保することです。これは階層的な知識の蒸留によって実現できます。
しかし、出力分布の学習は隠れた分布に依存するため、分布の一貫性を同時に確保することは困難です。
本稿では、隠れ層学習と出力層学習からなる適応的な二段階知識蒸留法を提案する。
前段階では、平均二乗誤差損失関数を適用することにより、完全なコンテキストを含む隠れた表現を学習します。
後の段階では、安定した出力分布を学習するためのべき乗変換ベースの適応平滑法を設計します。
LibriSpeech コーパスの元のストリーミング モデルと比較して、単語エラー率が 19\% 相対的に減少し、最初のトークンに対する応答が速くなりました。

要約(オリジナル)

Transducer is one of the mainstream frameworks for streaming speech recognition. There is a performance gap between the streaming and non-streaming transducer models due to limited context. To reduce this gap, an effective way is to ensure that their hidden and output distributions are consistent, which can be achieved by hierarchical knowledge distillation. However, it is difficult to ensure the distribution consistency simultaneously because the learning of the output distribution depends on the hidden one. In this paper, we propose an adaptive two-stage knowledge distillation method consisting of hidden layer learning and output layer learning. In the former stage, we learn hidden representation with full context by applying mean square error loss function. In the latter stage, we design a power transformation based adaptive smoothness method to learn stable output distribution. It achieved 19\% relative reduction in word error rate, and a faster response for the first token compared with the original streaming model in LibriSpeech corpus.

arxiv情報

著者 Haitao Tang,Yu Fu,Lei Sun,Jiabin Xue,Dan Liu,Yongchao Li,Zhiqiang Ma,Minghui Wu,Jia Pan,Genshun Wan,Ming’en Zhao
発行日 2023-06-27 03:11:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク