Audio Mamba: Bidirectional State Space Model for Audio Representation Learning

要約

トランスフォーマーは、CNN に基づく方法を超えて、急速にオーディオ分類に推奨される選択肢になりました。
ただし、オーディオ スペクトログラム トランスフォーマー (AST) は、自己注意により 2 次スケーリングを示します。
この二次的な自己注意コストの除去は、魅力的な方向性を示します。
最近、Mamba などの状態空間モデル (SSM) が、この点で言語および視覚タスクにおける可能性を実証しました。
この研究では、音声分類タスクに自己注意への依存が必要かどうかを検討します。
私たちは、オーディオ分類のための初のセルフアテンションフリーの純粋な SSM ベースのモデルである Audio Mamba (AuM) を導入することで、この問題に対処することを目指しています。
私たちは、6 つの異なるベンチマークで構成されるさまざまな音声データセットで AuM を評価し、確立された AST モデルと比較して同等以上のパフォーマンスを達成します。

要約(オリジナル)

Transformers have rapidly become the preferred choice for audio classification, surpassing methods based on CNNs. However, Audio Spectrogram Transformers (ASTs) exhibit quadratic scaling due to self-attention. The removal of this quadratic self-attention cost presents an appealing direction. Recently, state space models (SSMs), such as Mamba, have demonstrated potential in language and vision tasks in this regard. In this study, we explore whether reliance on self-attention is necessary for audio classification tasks. By introducing Audio Mamba (AuM), the first self-attention-free, purely SSM-based model for audio classification, we aim to address this question. We evaluate AuM on various audio datasets – comprising six different benchmarks – where it achieves comparable or better performance compared to well-established AST model.

arxiv情報

著者 Mehmet Hamza Erol,Arda Senocak,Jiu Feng,Joon Son Chung
発行日 2024-06-05 15:00:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク