Sequentially Sampled Chunk Conformer for Streaming End-to-End ASR

要約

このペーパーでは、ストリーミング エンドツーエンド (E2E) ASR 用のシーケンシャル サンプリング チャンク コンフォーマー、SSC コンフォーマーに関する詳細な調査を紹介します。
SSC-Conformer は、線形の複雑さを維持しながら効率的なクロスチャンク相互作用を可能にすることで、Conformer エンコーダーで順次サンプリングされたチャンク単位のマルチヘッド セルフ アテンション (SSC-MHSA) を使用することによる大幅なパフォーマンスの向上を初めて実証します。
さらに、チャンク単位の将来のコンテキストを利用するためにチャンク化畳み込みを利用することを検討し、畳み込み層でカジュアル畳み込みと統合して CER をさらに削減します。
提案された SSC-Conformer を AISHELL-1 ベンチマークで検証し、実験結果は、ストリーミング E2E ASR の最先端のパフォーマンスが LM スコアリングなしで CER 5.33% で達成されることを示しています。
また、SSC-Conformer はその線形的な複雑さにより、大きなバッチ サイズでトレーニングし、より効率的に推論することができます。

要約(オリジナル)

This paper presents an in-depth study on a Sequentially Sampled Chunk Conformer, SSC-Conformer, for streaming End-to-End (E2E) ASR. The SSC-Conformer first demonstrates the significant performance gains from using the sequentially sampled chunk-wise multi-head self-attention (SSC-MHSA) in the Conformer encoder by allowing efficient cross-chunk interactions while keeping linear complexities. Furthermore, it explores taking advantage of chunked convolution to make use of the chunk-wise future context and integrates with casual convolution in the convolution layers to further reduce CER. We verify the proposed SSC-Conformer on the AISHELL-1 benchmark and experimental results show that a state-of-the-art performance for streaming E2E ASR is achieved with CER 5.33% without LM rescoring. And, owing to its linear complexity, the SSC-Conformer can train with large batch sizes and infer more efficiently.

arxiv情報

著者 Fangyuan Wang,Bo Xu
発行日 2023-06-22 09:46:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク