Effective Audio Classification Network Based on Paired Inverse Pyramid Structure and Dense MLP Block

要約

最近では、畳み込みニューラル ネットワーク (CNN) と自己注意メカニズムに基づく大規模なアーキテクチャが音声分類に必要になっています。
これらの手法は最先端ですが、これらの作業の有効性は、莫大な計算コストとパラメーター、大量のデータ拡張、大規模なデータセットからの転送、およびその他のトリックによってのみ保証されます。
オーディオの軽量性を利用して、Paired Inverse Pyramid Structure (PIP) と呼ばれる効率的なネットワーク構造と、Paired Inverse Pyramid Structure MLP Network (PIPMN) と呼ばれるネットワークを提案します。
PIPMN は、わずか 100 万のパラメーターで、UrbanSound8K データセットで環境音分類 (ESC) の 96\%、GTAZN データセットで音楽ジャンル分類 (MGC) の 93.2\% の精度に達します。
どちらの結果も、データの拡張やモデルの転送なしで達成されます。
公開コードは https://github.com/JNAIC/PIPMN で入手できます。

要約(オリジナル)

Recently, massive architectures based on Convolutional Neural Network (CNN) and self-attention mechanisms have become necessary for audio classification. While these techniques are state-of-the-art, these works’ effectiveness can only be guaranteed with huge computational costs and parameters, large amounts of data augmentation, transfer from large datasets and some other tricks. By utilizing the lightweight nature of audio, we propose an efficient network structure called Paired Inverse Pyramid Structure (PIP) and a network called Paired Inverse Pyramid Structure MLP Network (PIPMN). The PIPMN reaches 96\% of Environmental Sound Classification (ESC) accuracy on the UrbanSound8K dataset and 93.2\% of Music Genre Classification (MGC) on the GTAZN dataset, with only 1 million parameters. Both of the results are achieved without data augmentation or model transfer. Public code is available at: https://github.com/JNAIC/PIPMN

arxiv情報

著者 Yunhao Chen,Yunjie Zhu,Zihui Yan,Yifan Huang,Zhen Ren,Jianlu Shen,Lifang Chen
発行日 2023-03-30 11:53:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク