Deep Space Separable Distillation for Lightweight Acoustic Scene Classification


音響シーン分類(ASC)は実世界において非常に重要である。近年、ディープラーニングに基づく手法が音響シーン分類に広く採用されている。しかし、これらの手法は現状では十分な軽量化がなされておらず、また性能も満足できるものではない。これらの問題を解決するために、我々は深層空間分離可能な蒸留ネットワークを提案する。第一に、このネットワークはlog-melスペクトログラム上で高-低周波数分解を行い、モデルの性能を維持しながら計算量を大幅に削減する。第二に、分離可能畳み込み(Separable Convolution: SC)、正規直交分離可能畳み込み(Orthonormal Separable Convolution: OSC)、分離可能部分畳み込み(Separable Partial Convolution: SPC)を含む、ASCのための3つの軽量演算子を特別に設計する。これらのオペレータは、音響シーン分類タスクにおいて非常に効率的な特徴抽出能力を示す。実験結果は、提案手法が現在一般的な深層学習手法と比較して9.8%の性能向上を達成し、同時にパラメータ数と計算複雑度が小さいことを示す。


Acoustic scene classification (ASC) is highly important in the real world. Recently, deep learning-based methods have been widely employed for acoustic scene classification. However, these methods are currently not lightweight enough as well as their performance is not satisfactory. To solve these problems, we propose a deep space separable distillation network. Firstly, the network performs high-low frequency decomposition on the log-mel spectrogram, significantly reducing computational complexity while maintaining model performance. Secondly, we specially design three lightweight operators for ASC, including Separable Convolution (SC), Orthonormal Separable Convolution (OSC), and Separable Partial Convolution (SPC). These operators exhibit highly efficient feature extraction capabilities in acoustic scene classification tasks. The experimental results demonstrate that the proposed method achieves a performance gain of 9.8% compared to the currently popular deep learning methods, while also having smaller parameter count and computational complexity.


著者 ShuQi Ye,Yuan Tian
発行日 2024-05-06 15:41:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク