MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training

要約

自己教師あり学習 (SSL) は、視覚、テキスト、および音声の分野の大規模データで一般化可能なモデルをトレーニングするための有望なパラダイムとして最近浮上しています。
SSL は音声とオーディオにおいて効果的であることが証明されていますが、音楽オーディオへの応用についてはまだ十分に検討されていません。
これは部分的には、音楽知識、特に音楽の調性と音程の特性のモデリングに関連する特有の課題によるものです。
この研究ギャップに対処するために、私たちは大規模な自己教師ありトレーニング (MERT) を備えた音響音楽理解モデルを提案します。このモデルには、マスク言語モデリング (MLM) スタイルの音響事前トレーニングで疑似ラベルを提供する教師モデルが組み込まれています。
私たちの調査では、パフォーマンスの点で従来の音声および音声アプローチよりも優れた教師モデルの効果的な組み合わせを特定しました。
この組み合わせには、残差ベクトル量子化 – 変分オートエンコーダー (RVQ-VAE) に基づく音響教師と、定数 Q 変換 (CQT) に基づく音楽教師が含まれます。
さらに、音響言語モデルの事前トレーニングの不安定性を克服するために幅広い設定を検討し、これにより、設計されたパラダイムを 95M から 330M のパラメーターに拡張できるようになります。
実験結果は、私たちのモデルが 14 の音楽理解タスクを一般化して良好に実行し、最先端 (SOTA) の総合スコアを達成できることを示しています。

要約(オリジナル)

Self-supervised learning (SSL) has recently emerged as a promising paradigm for training generalisable models on large-scale data in the fields of vision, text, and speech. Although SSL has been proven effective in speech and audio, its application to music audio has yet to be thoroughly explored. This is partially due to the distinctive challenges associated with modelling musical knowledge, particularly tonal and pitched characteristics of music. To address this research gap, we propose an acoustic Music undERstanding model with large-scale self-supervised Training (MERT), which incorporates teacher models to provide pseudo labels in the masked language modelling (MLM) style acoustic pre-training. In our exploration, we identified an effective combination of teacher models, which outperforms conventional speech and audio approaches in terms of performance. This combination includes an acoustic teacher based on Residual Vector Quantisation – Variational AutoEncoder (RVQ-VAE) and a musical teacher based on the Constant-Q Transform (CQT). Furthermore, we explore a wide range of settings to overcome the instability in acoustic language model pre-training, which allows our designed paradigm to scale from 95M to 330M parameters. Experimental results indicate that our model can generalise and perform well on 14 music understanding tasks and attain state-of-the-art (SOTA) overall scores.

arxiv情報

著者 Yizhi Li,Ruibin Yuan,Ge Zhang,Yinghao Ma,Xingran Chen,Hanzhi Yin,Chenghao Xiao,Chenghua Lin,Anton Ragni,Emmanouil Benetos,Norbert Gyenge,Roger Dannenberg,Ruibo Liu,Wenhu Chen,Gus Xia,Yemin Shi,Wenhao Huang,Zili Wang,Yike Guo,Jie Fu
発行日 2024-02-07 11:12:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS パーマリンク