Transformer-based Sequence Labeling for Audio Classification based on MFCCs



Transformer-based Sequence Labeling for Audio Classification based on MFCCs


– 音声認識や音楽認識などの分野において、音声信号からの特徴量抽出は重要なステップ。
– Mel-Spectrograms や MFCCs などの特徴量は、スペクトログラムに変換され分類される。
– 従来から機械学習やディープラーニングを用いたスペクトログラムの分類が研究されてきたが、計算コストが高い場合がある。
– 直感的なNLPのシーケンス分類にインスピレーションを得た、より簡潔なアプローチを提案する。
– 本論文では、MFCCsを利用した音声分類においてTransformer-encoder-basedモデルの提案を行う。
– ESC-50、Speech Commands v0.02、UrbanSound8kのデータセットでモデルをベンチマークし、高い性能を発揮した。
– UrbanSound8kのデータセットで訓練した場合、最高精度は95.2%。
– 合計パラメータ数は127,544で、軽量かつ効率的な音声分類タスクを実行することができる。


Audio classification is vital in areas such as speech and music recognition. Feature extraction from the audio signal, such as Mel-Spectrograms and MFCCs, is a critical step in audio classification. These features are transformed into spectrograms for classification. Researchers have explored various techniques, including traditional machine and deep learning methods to classify spectrograms, but these can be computationally expensive. To simplify this process, a more straightforward approach inspired by sequence classification in NLP can be used. This paper proposes a Transformer-encoder-based model for audio classification using MFCCs. The model was benchmarked against the ESC-50, Speech Commands v0.02 and UrbanSound8k datasets and has shown strong performance, with the highest accuracy of 95.2% obtained upon training the model on the UrbanSound8k dataset. The model consisted of a mere 127,544 total parameters, making it light-weight yet highly efficient at the audio classification task.


著者 C. S. Sonali,Chinmayi B S,Ahana Balasubramanian
発行日 2023-04-30 07:25:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CV, cs.SD, eess.AS パーマリンク