Multi-View Frequency-Attention Alternative to CNN Frontends for Automatic Speech Recognition

要約

畳み込みフロントエンドは、スペクトログラムを前処理し、シーケンスの長さを削減し、時間と周波数のローカル情報を同様に結合するための、Transformer ベースの自動音声認識の一般的な選択肢です。
ただし、オーディオ スペクトログラムの幅と高さは異なる情報を示します。たとえば、残響や調音システムにより、時間軸には明確な左から右への依存性があります。
それどころか、母音と子音は非常に異なるパターンを示し、ほぼばらばらの周波数範囲を占めます。
したがって、周波数に対するグローバルな注意は、ローカルな畳み込みよりも有益であるという仮説を立てます。
Alexa トラフィック上で、畳み込みニューラル ネットワーク フロントエンドを提案された F-Attendance モジュールに置き換えた Conformer トランスデューサーを実稼働規模で使用すると、2.4 % の相対単語誤り率低減 (rWERR) が得られます。
一般化可能性を実証するために、長期短期記憶ベースのリッスン アテンダントおよびスペル アーキテクチャを使用して公開 LibriSpeech データでこれを検証し、4.6 % rWERR が得られ、(シミュレートされた) ノイズの多い条件に対する堅牢性を実証します。

要約(オリジナル)

Convolutional frontends are a typical choice for Transformer-based automatic speech recognition to preprocess the spectrogram, reduce its sequence length, and combine local information in time and frequency similarly. However, the width and height of an audio spectrogram denote different information, e.g., due to reverberation as well as the articulatory system, the time axis has a clear left-to-right dependency. On the contrary, vowels and consonants demonstrate very different patterns and occupy almost disjoint frequency ranges. Therefore, we hypothesize, global attention over frequencies is beneficial over local convolution. We obtain 2.4 % relative word error rate reduction (rWERR) on a production scale Conformer transducer replacing its convolutional neural network frontend by the proposed F-Attention module on Alexa traffic. To demonstrate generalizability, we validate this on public LibriSpeech data with a long short term memory-based listen attend and spell architecture obtaining 4.6 % rWERR and demonstrate robustness to (simulated) noisy conditions.

arxiv情報

著者 Belen Alastruey,Lukas Drude,Jahn Heymann,Simon Wiesler
発行日 2023-06-12 08:37:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク