要約
ローカル機能とグローバル機能はどちらも自動音声認識 (ASR) に不可欠です。
最近の多くの手法では、ローカル機能とグローバル機能を組み合わせるだけで ASR のパフォーマンスがさらに向上することが検証されています。
ただし、これらの方法では、ローカル機能とグローバル機能の相互作用にはあまり注意が払われず、そのシリーズ アーキテクチャはローカルとグローバルの関係を反映するように厳格になっています。
これらの問題に対処するために、この文書では、ASR のより適切な表現を学習するためのインタラクティブなローカル機能とグローバル機能の融合のための InterFormer を提案します。
具体的には、畳み込みブロックとトランスブロックを並列設計で組み合わせます。
さらに、ローカル特徴とグローバル特徴の相互作用と融合をそれぞれ実装するための双方向特徴相互作用モジュール (BFIM) と選択的融合モジュール (SFM) を提案します。
パブリック ASR データセットに対する広範な実験により、私たちが提案する InterFormer の有効性と、他の Transformer および Conformer モデルよりも優れたパフォーマンスが実証されました。
要約(オリジナル)
The local and global features are both essential for automatic speech recognition (ASR). Many recent methods have verified that simply combining local and global features can further promote ASR performance. However, these methods pay less attention to the interaction of local and global features, and their series architectures are rigid to reflect local and global relationships. To address these issues, this paper proposes InterFormer for interactive local and global features fusion to learn a better representation for ASR. Specifically, we combine the convolution block with the transformer block in a parallel design. Besides, we propose a bidirectional feature interaction module (BFIM) and a selective fusion module (SFM) to implement the interaction and fusion of local and global features, respectively. Extensive experiments on public ASR datasets demonstrate the effectiveness of our proposed InterFormer and its superior performance over the other Transformer and Conformer models.
arxiv情報
| 著者 | Zhi-Hao Lai,Tian-Hao Zhang,Qi Liu,Xinyuan Qian,Li-Fang Wei,Song-Lu Chen,Feng Chen,Xu-Cheng Yin | 
| 発行日 | 2023-05-29 11:28:27+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
