Leveraging Pre-Trained Autoencoders for Interpretable Prototype Learning of Music Audio

要約

我々は、プロトタイプ学習に基づいた音楽オーディオ分類の解釈可能なモデル PECMAE を紹介します。
私たちのモデルは、オートエンコーダーとプロトタイプ ネットワークを共同学習する以前のメソッド APNet に基づいています。
代わりに、両方のトレーニング プロセスを分離することを提案します。
これにより、はるかに大きなデータで事前トレーニングされた既存の自己教師ありオートエンコーダー (EnCodecMAE) を活用できるようになり、より一般化された表現が提供されます。
APNet を使用すると、最も近いトレーニング データ サンプルに基づいて、プロトタイプを波形に再構築して解釈できるようになります。
対照的に、我々は、そのような依存性を持たずに再構築を可能にする拡散デコーダの使用を検討します。
私たちは、楽器分類 (Medley-Solos-DB) とジャンル認識 (GTZAN および大規模な社内データセット) のデータセットに関する手法を評価します。後者は、これまでプロトタイプ ネットワークでは取り組まれなかった、より困難なタスクです。
プロトタイプベースのモデルは、オートエンコーダーの埋め込みで達成されたパフォーマンスのほとんどを維持しており、プロトタイプの音響化は分類器の動作を理解するのに有益であることがわかりました。

要約(オリジナル)

We present PECMAE, an interpretable model for music audio classification based on prototype learning. Our model is based on a previous method, APNet, which jointly learns an autoencoder and a prototypical network. Instead, we propose to decouple both training processes. This enables us to leverage existing self-supervised autoencoders pre-trained on much larger data (EnCodecMAE), providing representations with better generalization. APNet allows prototypes’ reconstruction to waveforms for interpretability relying on the nearest training data samples. In contrast, we explore using a diffusion decoder that allows reconstruction without such dependency. We evaluate our method on datasets for music instrument classification (Medley-Solos-DB) and genre recognition (GTZAN and a larger in-house dataset), the latter being a more challenging task not addressed with prototypical networks before. We find that the prototype-based models preserve most of the performance achieved with the autoencoder embeddings, while the sonification of prototypes benefits understanding the behavior of the classifier.

arxiv情報

著者 Pablo Alonso-Jiménez,Leonardo Pepino,Roser Batlle-Roca,Pablo Zinemanas,Dmitry Bogdanov,Xavier Serra,Martín Rocamora
発行日 2024-02-14 17:13:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS パーマリンク