Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge Distillation

要約

オーディオ スペクトログラム トランスフォーマー モデルは、オーディオ タグ付けの分野を支配し、以前は畳み込みニューラル ネットワーク (CNN) を支配していました。
それらの優位性は、AudioSet などの大規模なデータセットをスケールアップして活用する能力に基づいています。
ただし、トランスフォーマーは、CNN と比較して、モデルのサイズと計算要件の点で要求が厳しいです。
高性能でありながら複雑な変換器からのオフライン知識蒸留 (KD) に基づく効率的な CNN のトレーニング手順を提案します。
提案されたトレーニング スキーマと MobileNetV3 に基づく効率的な CNN 設計により、モデルは、パラメーターと計算効率、および予測パフォーマンスの点で、以前のソリューションよりも優れたパフォーマンスを発揮します。
さまざまな複雑さレベルのモデルを提供し、複雑さの低いモデルから AudioSet での .483 mAP の新しい最先端のパフォーマンスまでスケーリングします。
ソースコードは https://github.com/fschmid56/EfficientAT で入手可能

要約(オリジナル)

Audio Spectrogram Transformer models rule the field of Audio Tagging, outrunning previously dominating Convolutional Neural Networks (CNNs). Their superiority is based on the ability to scale up and exploit large-scale datasets such as AudioSet. However, Transformers are demanding in terms of model size and computational requirements compared to CNNs. We propose a training procedure for efficient CNNs based on offline Knowledge Distillation (KD) from high-performing yet complex transformers. The proposed training schema and the efficient CNN design based on MobileNetV3 results in models outperforming previous solutions in terms of parameter and computational efficiency and prediction performance. We provide models of different complexity levels, scaling from low-complexity models up to a new state-of-the-art performance of .483 mAP on AudioSet. Source Code available at: https://github.com/fschmid56/EfficientAT

arxiv情報

著者 Florian Schmid,Khaled Koutini,Gerhard Widmer
発行日 2023-02-28 16:08:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク