Low-complexity deep learning frameworks for acoustic scene classification using teacher-student scheme and multiple spectrograms


この技術レポートでは、音響シーン分類 (ASC) のための低複雑性の深層学習システムを紹介します。
提案されたシステムは 2 つの主要なフェーズで構成されます。(フェーズ I) 教師ネットワークのトレーニング。
(フェーズ II) 教師から抽出した知識を使用して生徒ネットワークをトレーニングします。
最初のフェーズでは、大きなフットプリント モデルを提示する教師がトレーニングされます。
教師をトレーニングした後、教師の最後から 2 番目の層の特徴マップであるエンベディングが抽出されます。
第 2 フェーズでは、複雑さの低いモデルを表す生徒ネットワークが、教師から抽出されたエンベディングを使用してトレーニングされます。
DCASE 2023 タスク 1 開発データセットに対して実施された実験は、低複雑性の要件を満たし、57.4% という最高の分類精度を達成し、DCASE ベースラインを 14.5% 改善しました。


In this technical report, a low-complexity deep learning system for acoustic scene classification (ASC) is presented. The proposed system comprises two main phases: (Phase I) Training a teacher network; and (Phase II) training a student network using distilled knowledge from the teacher. In the first phase, the teacher, which presents a large footprint model, is trained. After training the teacher, the embeddings, which are the feature map of the second last layer of the teacher, are extracted. In the second phase, the student network, which presents a low complexity model, is trained with the embeddings extracted from the teacher. Our experiments conducted on DCASE 2023 Task 1 Development dataset have fulfilled the requirement of low-complexity and achieved the best classification accuracy of 57.4%, improving DCASE baseline by 14.5%.


著者 Lam Pham,Dat Ngo,Cam Le,Anahid Jalali,Alexander Schindler
発行日 2023-05-16 14:21:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク