Mamba for Streaming ASR Combined with Unimodal Aggregation


この論文はストリーミング自動音声認識 (ASR) に取り組んでいます。
最近提案された状態空間モデルである Mamba は、線形複雑さの利点の恩恵を受けながら、さまざまなタスクにおいて Transformer に匹敵する、またはそれを上回る能力を実証しました。
ストリーミング ASR に対する Mamba エンコーダの効率を調査し、制御可能な将来の情報を活用するための関連する先読みメカニズムを提案します。
さらに、ストリーミング スタイルのユニモーダル アグリゲーション (UMA) メソッドが実装されています。これにより、トークン アクティビティが自動的に検出され、ストリーミングでトークン出力がトリガーされ、その間に特徴フレームが集約されて、トークン表現の学習が向上します。
UMA に基づいて、認識待ち時間をさらに短縮するための早期終了 (ET) 方法が提案されています。
2 つの北京語データセットに対して行われた実験では、提案されたモデルが認識精度と遅延の両方の点で競争力のある ASR パフォーマンスを達成していることが実証されました。


This paper works on streaming automatic speech recognition (ASR). Mamba, a recently proposed state space model, has demonstrated the ability to match or surpass Transformers in various tasks while benefiting from a linear complexity advantage. We explore the efficiency of Mamba encoder for streaming ASR and propose an associated lookahead mechanism for leveraging controllable future information. Additionally, a streaming-style unimodal aggregation (UMA) method is implemented, which automatically detects token activity and streamingly triggers token output, and meanwhile aggregates feature frames for better learning token representation. Based on UMA, an early termination (ET) method is proposed to further reduce recognition latency. Experiments conducted on two Mandarin Chinese datasets demonstrate that the proposed model achieves competitive ASR performance in terms of both recognition accuracy and latency.


著者 Ying Fang,Xiaofei Li
発行日 2024-12-27 09:23:14+00:00
arxivサイト arxiv_id(pdf)

