Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition

要約

変圧器は最近、ASR 分野を支配しています。
優れたパフォーマンスを実現できますが、自己回帰 (AR) デコーダーを使用してトークンを 1 つずつ生成するため、計算効率が低くなります。
推論を高速化するには、非自己回帰 (NAR) メソッド。
シングルステップ NAR は、並列生成を可能にするように設計されました。
ただし、出力トークン内の独立性の仮定により、シングルステップ NAR のパフォーマンスは、特に大規模なコーパスでは、AR モデルのパフォーマンスよりも劣ります。
シングルステップ NAR を改善するには、2 つの課題があります。1 つ目は、出力トークンの数を正確に予測し、隠れ変数を抽出することです。
第二に、出力トークン間の相互依存のモデリングを強化します。
両方の課題に取り組むために、Paraformer と呼ばれる高速で正確な並列変換器を提案します。
これは、トークンの数を予測し、隠れた変数を生成するために、継続的な統合と起動に基づく予測子を利用します。
次に、glancing language model (GLM) サンプラーがセマンティック埋め込みを生成して、NAR デコーダーがコンテキストの相互依存性をモデル化する機能を強化します。
最後に、パフォーマンスをさらに向上させるために、最小単語誤り率トレーニング用のネガティブ サンプルを生成する戦略を設計します。
公開されている AISHELL-1、AISHELL-2 ベンチマーク、および産業レベルの 20,000 時間のタスクを使用した実験では、提案された Paraformer が最先端の AR トランスフォーマーに匹敵するパフォーマンスを 10 倍以上のスピードアップで達成できることが実証されています。

要約(オリジナル)

Transformers have recently dominated the ASR field. Although able to yield good performance, they involve an autoregressive (AR) decoder to generate tokens one by one, which is computationally inefficient. To speed up inference, non-autoregressive (NAR) methods, e.g. single-step NAR, were designed, to enable parallel generation. However, due to an independence assumption within the output tokens, performance of single-step NAR is inferior to that of AR models, especially with a large-scale corpus. There are two challenges to improving single-step NAR: Firstly to accurately predict the number of output tokens and extract hidden variables; secondly, to enhance modeling of interdependence between output tokens. To tackle both challenges, we propose a fast and accurate parallel transformer, termed Paraformer. This utilizes a continuous integrate-and-fire based predictor to predict the number of tokens and generate hidden variables. A glancing language model (GLM) sampler then generates semantic embeddings to enhance the NAR decoder’s ability to model context interdependence. Finally, we design a strategy to generate negative samples for minimum word error rate training to further improve performance. Experiments using the public AISHELL-1, AISHELL-2 benchmark, and an industrial-level 20,000 hour task demonstrate that the proposed Paraformer can attain comparable performance to the state-of-the-art AR transformer, with more than 10x speedup.

arxiv情報

著者 Zhifu Gao,Shiliang Zhang,Ian McLoughlin,Zhijie Yan
発行日 2023-03-30 07:00:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク