HyperConformer: Multi-head HyperMixer for Efficient Speech Recognition

要約

最先端の ASR システムは、ローカルとグローバルの相互作用を個別にモデル化することで有望な結果を達成しました。
前者は効率的に計算できますが、グローバルな相互作用は通常、アテンション メカニズムを介してモデル化され、長い入力シーケンスではコストがかかります。
ここでは、線形の複雑さを示す注意の効率的な代替手段である HyperMixer を音声認識用の Conformer アーキテクチャに拡張し、HyperConformer につながることでこの問題に対処します。
特に、マルチヘッド HyperConformer は、推論速度、メモリ、パラメータ数、利用可能なトレーニング データの点で Conformer よりも効率的であると同時に、同等以上の認識パフォーマンスを実現します。
HyperConformer は、800 万未満のニューラル パラメーターと 5.7GB のトレーニング中のピーク メモリを備えた Librispeech テストクリーンで 2.9% の単語誤り率を達成するため、アクセス可能なハードウェアでトレーニング可能です。
エンコーダの速度は、同等の Conformer よりも速く、中程度の音声で 38%、長い音声で 56% の間です。
(HyperConformer レシピは、https://github.com/speechbrain/speechbrain/tree/develop/recipes/LibriSpeech/ASR/transformer/ で公開されています)

要約(オリジナル)

State-of-the-art ASR systems have achieved promising results by modeling local and global interactions separately. While the former can be computed efficiently, global interactions are usually modeled via attention mechanisms, which are expensive for long input sequences. Here, we address this by extending HyperMixer, an efficient alternative to attention exhibiting linear complexity, to the Conformer architecture for speech recognition, leading to HyperConformer. In particular, multi-head HyperConformer achieves comparable or higher recognition performance while being more efficient than Conformer in terms of inference speed, memory, parameter count, and available training data. HyperConformer achieves a word error rate of 2.9% on Librispeech test-clean with less than 8M neural parameters and a peak memory during training of 5.7GB, hence trainable with accessible hardware. Encoder speed is between 38% on mid-length speech and 56% on long speech faster than an equivalent Conformer. (The HyperConformer recipe is publicly available in: https://github.com/speechbrain/speechbrain/tree/develop/recipes/LibriSpeech/ASR/transformer/)

arxiv情報

著者 Florian Mai,Juan Zuluaga-Gomez,Titouan Parcollet,Petr Motlicek
発行日 2023-05-29 17:53:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS パーマリンク