Samba-ASR: State-Of-The-Art Speech Recognition Leveraging Structured State-Space Models

要約

私たちは、状態空間モデル (SSM) の基礎に基づいて構築された、新しい Mamba アーキテクチャをエンコーダとデコーダの両方として利用する、最初の最先端の自動音声認識 (ASR) モデルである Samba ASR を提案します。自己依存型のトランスフォーマベースの ASR モデルとは異なります。
– 依存関係をキャプチャするための注意メカニズム、Samba ASR は、効率的な状態空間ダイナミクスを使用して、ローカルとグローバルの両方の時間依存関係を効果的にモデル化し、顕著なパフォーマンスの向上を達成します。
入力長による 2 次スケーリングや長距離依存関係の処理の難しさなど、Samba ASR は優れた精度と効率を実現します。実験結果は、Samba ASR がさまざまな標準ベンチマークにわたって既存のオープンソースのトランスフォーマーベースの ASR モデルを上回り、新しい最先端技術として確立していることを示しています。
ASR。ベンチマーク データセットの広範な評価により、ワード エラー レート (WER) が大幅に改善され、リソースが少ない場合でも競争力のあるパフォーマンスが得られることが示されました。
さらに、Mamba アーキテクチャ固有の計算効率とパラメータの最適化により、Samba ASR は多様な ASR タスクに対するスケーラブルで堅牢なソリューションになります。私たちの貢献には、自動音声認識 (ASR) 用の新しい Samba ASR アーキテクチャの開発が含まれており、その優位性を実証しています。
音声シーケンス処理用のトランスフォーマー ベースのモデルよりも構造化状態空間モデル (SSM) の優れた性能を実現します。公開ベンチマークに関する包括的な評価を提供し、以下のことを示します。
stateoftheart (SOTA) のパフォーマンスを分析し、計算効率、ノイズに対する堅牢性、およびシーケンスの一般化についての詳細な分析を示します。この研究では、効率的で正確な ASR のためのトランス不要の代替手段として Mamba SSM の実現可能性を強調しています。状態空間モデリングの進歩を活用することで、Samba は
ASR は ASR のパフォーマンス標準を再定義し、この分野の将来の研究のための新しいベンチマークを設定します。

要約(オリジナル)

We propose Samba ASR,the first state of the art Automatic Speech Recognition(ASR)model leveraging the novel Mamba architecture as both encoder and decoder,built on the foundation of state space models(SSMs).Unlike transformerbased ASR models,which rely on self-attention mechanisms to capture dependencies,Samba ASR effectively models both local and global temporal dependencies using efficient statespace dynamics,achieving remarkable performance gains.By addressing the limitations of transformers,such as quadratic scaling with input length and difficulty in handling longrange dependencies,Samba ASR achieves superior accuracy and efficiency.Experimental results demonstrate that Samba ASR surpasses existing opensource transformerbased ASR models across various standard benchmarks,establishing it as the new state of theart in ASR.Extensive evaluations on the benchmark dataset show significant improvements in Word Error Rate(WER),with competitive performance even in lowresource scenarios.Furthermore,the inherent computational efficiency and parameter optimization of the Mamba architecture make Samba ASR a scalable and robust solution for diverse ASR tasks.Our contributions include the development of a new Samba ASR architecture for automatic speech recognition(ASR),demonstrating the superiority of structured statespace models(SSMs)over transformer based models for speech sequence processing.We provide a comprehensive evaluation on public benchmarks,showcasing stateoftheart(SOTA)performance,and present an indepth analysis of computational efficiency,robustness to noise,and sequence generalization.This work highlights the viability of Mamba SSMs as a transformerfree alternative for efficient and accurate ASR.By leveraging the advancements of statespace modeling,Samba ASR redefines ASR performance standards and sets a new benchmark for future research in this field.

arxiv情報

著者 Syed Abdul Gaffar Shakhadri,Kruthika KR,Kartik Basavaraj Angadi
発行日 2025-01-07 10:01:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク