E2E Segmentation in a Two-Pass Cascaded Encoder ASR Model

要約

我々は、ニューラルセグメンテーションと2パスカスケードエンコーダASRを1つのモデルに統合することを探求している。重要な課題は、セグメンテーション機能(デコーダーと同期してリアルタイムで動作)が、推論中にユーザーが感じる遅延や削除エラーを発生させずに、2パス目(リアルタイムから900ミリ秒遅れて動作)を終了させることである。我々は、ニューラルセグメンターを因果的な1パス目のデコーダーと統合し、リアルタイムでセグメント終了(EOS)信号を出力する設計を提案する。このEOS信号は、非因果的な第2パスの最終処理に使用される。2パス目のファイナライズを行う様々な方法を実験した結果、新しいダミーフレーム注入戦略により、高品質な2パス目の結果と低いファイナライズ遅延を同時に実現できることを発見しました。実世界の長編キャプションタスク(YouTube)において、同じカスケードエンコーダを使用したベースラインのVADベースのセグメンターと比較して、相対WER2.4%、EOSレイテンシ140msの向上を達成しました。

要約(オリジナル)

We explore unifying a neural segmenter with two-pass cascaded encoder ASR into a single model. A key challenge is allowing the segmenter (which runs in real-time, synchronously with the decoder) to finalize the 2nd pass (which runs 900 ms behind real-time) without introducing user-perceived latency or deletion errors during inference. We propose a design where the neural segmenter is integrated with the causal 1st pass decoder to emit a end-of-segment (EOS) signal in real-time. The EOS signal is then used to finalize the non-causal 2nd pass. We experiment with different ways to finalize the 2nd pass, and find that a novel dummy frame injection strategy allows for simultaneous high quality 2nd pass results and low finalization latency. On a real-world long-form captioning task (YouTube), we achieve 2.4% relative WER and 140 ms EOS latency gains over a baseline VAD-based segmenter with the same cascaded encoder.

arxiv情報

著者 W. Ronny Huang,Shuo-Yiin Chang,Tara N. Sainath,Yanzhang He,David Rybach,Robert David,Rohit Prabhavalkar,Cyril Allauzen,Cal Peyser,Trevor D. Strohman
発行日 2023-03-05 19:21:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク