要約
最近のエンドツーエンドの自動音声認識 (ASR) システムでは、高フレーム レートで埋め込みを生成する Transformer ベースの音響エンコーダがよく使用されます。
ただし、この設計は、セルフ アテンションの二次計算により、特に長い音声信号の場合には非効率的です。
これに対処するために、キー値間の類似性スコアが高い隣接トークンを段階的に結合する新しい手法である Adjacent Token Merging (A-ToMe) を提案します。
このようにして、合計のタイム ステップを減らすことができ、エンコーダとジョイント ネットワークの両方の推論が高速化されます。
LibriSpeech での実験では、私たちの方法により、精度を著しく損なうことなく、トークンを 57% 削減し、GPU での推論速度を 70% 向上させることができることが示されています。
さらに、A-ToMe は、入力音声が複数の発話で構成される長い形式の ASR のトークンを削減する効果的なソリューションでもあることを示します。
要約(オリジナル)
Recent end-to-end automatic speech recognition (ASR) systems often utilize a Transformer-based acoustic encoder that generates embedding at a high frame rate. However, this design is inefficient, particularly for long speech signals due to the quadratic computation of self-attention. To address this, we propose a new method, Adjacent Token Merging (A-ToMe), which gradually combines adjacent tokens with high similarity scores between their key values. In this way, the total time step could be reduced, and the inference of both the encoder and joint network is accelerated. Experiments on LibriSpeech show that our method can reduce 57% of tokens and improve the inference speed on GPU by 70% without any notable loss of accuracy. Additionally, we demonstrate that A-ToMe is also an effective solution to reduce tokens in long-form ASR, where the input speech consists of multiple utterances.
arxiv情報
著者 | Yuang Li,Yu Wu,Jinyu Li,Shujie Liu |
発行日 | 2023-06-28 08:33:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google