A CTC Alignment-based Non-autoregressive Transformer for End-to-end Automatic Speech Recognition

要約

タイトル: End-to-end自動音声認識のためのCTCアラインメントベースのNon-autoregressive Transformer

要約:
– エンド-to-エンドモデルが自動音声認識のシステムに広く使用されるようになってきた。
– 最も代表的な2つのアプローチは、コネクショニスト時系列分類(CTC)とアテンションベースのエンコーダー-デコーダー(AED)モデルである。
– 自己回帰トランスフォーマーはAEDの変種で、トークン生成に自己回帰メカニズムを採用しているため、インファレンス時に比較的遅い。
– 本研究では、エンド-to-エンドの音声認識のためのCTCアラインメントベースのシングルステップNon-Autoregressive Transformer(CASS-NAT)について包括的な研究を行っている。
– CASS-NATでは、自己回帰トランスフォーマー(AT)の単語の埋め込みを、CTCアラインメントによって提供される音響的な境界情報を用いてエンコーダーの出力から抽出されるトークンレベルの音響埋め込み(TAE)で置き換えることができる。
– 訓練時には、Viterbiアラインメントを使用してTAEを生成し、複数のトレーニング戦略をさらに探求して単語誤り率(WER)のパフォーマンスを向上させている。
– 推論時には、誤りベースのアラインメントサンプリング方法を詳しく調べて、トレーニングとテストのプロセスでのアラインメントミスマッチを減らす。
– 実験結果は、CASS-NATが様々なASRタスクにおいてATに近いWERを提供しながら、推論速度を約24倍速くしていることを示している。自己教示学習の有無に関わらず、いくつかのデータセットで非自己回帰モデルの最新の結果を達成している。
– CASS-NATデコーダーの振る舞いを分析して、なぜATと同様のパフォーマンスを発揮できるかを説明している。
– TAEは文法構造に対する単語の埋め込みと同様の機能を持っていることが分かり、言語モデルなしでTAEからいくつかの意味情報を学習する可能性があることを示唆している。

要約(オリジナル)

Recently, end-to-end models have been widely used in automatic speech recognition (ASR) systems. Two of the most representative approaches are connectionist temporal classification (CTC) and attention-based encoder-decoder (AED) models. Autoregressive transformers, variants of AED, adopt an autoregressive mechanism for token generation and thus are relatively slow during inference. In this paper, we present a comprehensive study of a CTC Alignment-based Single-Step Non-Autoregressive Transformer (CASS-NAT) for end-to-end ASR. In CASS-NAT, word embeddings in the autoregressive transformer (AT) are substituted with token-level acoustic embeddings (TAE) that are extracted from encoder outputs with the acoustical boundary information offered by the CTC alignment. TAE can be obtained in parallel, resulting in a parallel generation of output tokens. During training, Viterbi-alignment is used for TAE generation, and multiple training strategies are further explored to improve the word error rate (WER) performance. During inference, an error-based alignment sampling method is investigated in depth to reduce the alignment mismatch in the training and testing processes. Experimental results show that the CASS-NAT has a WER that is close to AT on various ASR tasks, while providing a ~24x inference speedup. With and without self-supervised learning, we achieve new state-of-the-art results for non-autoregressive models on several datasets. We also analyze the behavior of the CASS-NAT decoder to explain why it can perform similarly to AT. We find that TAEs have similar functionality to word embeddings for grammatical structures, which might indicate the possibility of learning some semantic information from TAEs without a language model.

arxiv情報

著者 Ruchao Fan,Wei Chu,Peng Chang,Abeer Alwan
発行日 2023-04-15 18:34:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, eess.AS パーマリンク