Masked Latent Prediction and Classification for Self-Supervised Audio Representation Learning

要約

最近、マスクされた潜在的な予測に基づく自己教師の学習方法は、入力データを強力な表現にエンコードすることが証明されています。
ただし、トレーニング中に、学習した潜在スペースをさらに変換して、下流の分類タスクに適している高レベルの情報を抽出できます。
したがって、新しい方法を提案します:マスクされた潜在的な予測と分類(MATPAC)。これは、共同で解決された2つの口実タスクで訓練されています。
以前の作業と同様に、最初の口実タスクはマスクされた潜在的な予測タスクであり、潜在空間での堅牢な入力表現を確保します。
2つ目は、教師と生徒の間の確率分布を一致させるために、最初の口実タスクの潜在的な表現を利用する監視なし分類です。
MATPAC法を他の最先端の提案と比較し、アブレーション研究を実施することにより、MATPACメソッドを検証します。
MATPACは、OpenMIC、GTZAN、ESC-50、US8Kなどの参照オーディオ分類データセットで最先端の自己監視学習結果に到達し、Magna-Tag-a-Tuneの音楽自動タグのための同等の監視された方法の結果を上回ります。

要約(オリジナル)

Recently, self-supervised learning methods based on masked latent prediction have proven to encode input data into powerful representations. However, during training, the learned latent space can be further transformed to extract higher-level information that could be more suited for downstream classification tasks. Therefore, we propose a new method: MAsked latenT Prediction And Classification (MATPAC), which is trained with two pretext tasks solved jointly. As in previous work, the first pretext task is a masked latent prediction task, ensuring a robust input representation in the latent space. The second one is unsupervised classification, which utilises the latent representations of the first pretext task to match probability distributions between a teacher and a student. We validate the MATPAC method by comparing it to other state-of-the-art proposals and conducting ablations studies. MATPAC reaches state-of-the-art self-supervised learning results on reference audio classification datasets such as OpenMIC, GTZAN, ESC-50 and US8K and outperforms comparable supervised methods results for musical auto-tagging on Magna-tag-a-tune.

arxiv情報

著者 Aurian Quelennec,Pierre Chouteau,Geoffroy Peeters,Slim Essid
発行日 2025-02-17 17:02:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD パーマリンク