Samba-asr state-of-the-art speech recognition leveraging structured state-space models

要約

私たちは、状態空間モデル (SSM) の基盤上に構築された、エンコーダーとデコーダーの両方として新しい Mamba アーキテクチャを活用する最初の最先端の自動音声認識 (ASR) モデルである Samba ASR を提案します。
セルフアテンション メカニズムに依存して依存関係を取得するトランスフォーマー ベースの ASR モデルとは異なり、Samba ASR は、効率的な状態空間ダイナミクスを使用してローカルとグローバルの両方の時間依存関係を効果的にモデル化し、顕著なパフォーマンスの向上を実現します。
入力長による 2 次スケーリングや長距離依存関係の処理の難しさなど、トランスフォーマーの制限に対処することで、Samba ASR は優れた精度と効率を実現します。
実験結果は、Samba ASR がさまざまな標準ベンチマーク全体で既存のオープンソースのトランスベースの ASR モデルを上回り、ASR の新しい最先端技術として確立されたことを示しています。
ベンチマーク データセットの広範な評価により、ワード エラー レート (WER) が大幅に改善され、リソースが少ないシナリオでも競争力のあるパフォーマンスが得られることがわかりました。
さらに、Mamba アーキテクチャの計算効率とパラメータの最適化により、Samba ASR は多様な ASR タスクに対するスケーラブルで堅牢なソリューションになります。
私たちの貢献には以下が含まれます。 音声シーケンス処理において、トランスベースのモデルよりも SSM の優位性を実証する新しい Samba ASR アーキテクチャ。
最先端のパフォーマンスを示す公開ベンチマークの包括的な評価。
計算効率、ノイズに対する堅牢性、シーケンスの一般化の分析。
この研究は、効率的で正確な ASR のための変圧器不要の代替手段としての Mamba SSM の実現可能性を強調しています。
Samba ASR は、状態空間モデリングの進歩を活用することで、ASR のパフォーマンスと将来の研究の新しいベンチマークを設定します。

要約(オリジナル)

We propose Samba ASR, the first state-of-the-art Automatic Speech Recognition (ASR) model leveraging the novel Mamba architecture as both encoder and decoder, built on the foundation of state-space models (SSMs). Unlike transformer-based ASR models, which rely on self-attention mechanisms to capture dependencies, Samba ASR effectively models both local and global temporal dependencies using efficient state-space dynamics, achieving remarkable performance gains. By addressing the limitations of transformers, such as quadratic scaling with input length and difficulty in handling long-range dependencies, Samba ASR achieves superior accuracy and efficiency. Experimental results demonstrate that Samba ASR surpasses existing open-source transformer-based ASR models across various standard benchmarks, establishing it as the new state of the art in ASR. Extensive evaluations on benchmark datasets show significant improvements in Word Error Rate (WER), with competitive performance even in low-resource scenarios. Furthermore, the computational efficiency and parameter optimization of the Mamba architecture make Samba ASR a scalable and robust solution for diverse ASR tasks. Our contributions include: A new Samba ASR architecture demonstrating the superiority of SSMs over transformer-based models for speech sequence processing. A comprehensive evaluation on public benchmarks showcasing state-of-the-art performance. An analysis of computational efficiency, robustness to noise, and sequence generalization. This work highlights the viability of Mamba SSMs as a transformer-free alternative for efficient and accurate ASR. By leveraging state-space modeling advancements, Samba ASR sets a new benchmark for ASR performance and future research.

arxiv情報

著者 Syed Abdul Gaffar Shakhadri,Kruthika KR,Kartik Basavaraj Angadi
発行日 2025-01-06 08:16:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク