要約
自己教師あり学習 (SSL) は、視覚、テキスト、および音声の分野の大規模データで一般化可能なモデルをトレーニングするための有望なパラダイムとして最近浮上しています。
SSL は音声とオーディオにおいて効果的であることが証明されていますが、音楽オーディオへの応用についてはまだ十分に検討されていません。
これは主に、音楽知識、特に音楽の調性と音程の特性のモデリングに関連する特有の課題によるものです。
この研究ギャップに対処するために、私たちは大規模な自己教師ありトレーニング (MERT) を備えた音響音楽理解モデルを提案します。このモデルには、マスク言語モデリング (MLM) スタイルの音響事前トレーニングで疑似ラベルを提供する教師モデルが組み込まれています。
私たちの調査では、パフォーマンスの点で従来の音声および音声アプローチよりも優れた教師モデルの優れた組み合わせを特定しました。
この組み合わせには、残差ベクトル量子化 – 変分オートエンコーダー (RVQ-VAE) に基づく音響教師と、定数 Q 変換 (CQT) に基づく音楽教師が含まれます。
これらの教師は、生徒モデルである BERT スタイルのトランスフォーマー エンコーダーを効果的に導き、音楽オーディオをより適切にモデル化します。
さらに、表現の堅牢性を高めるためにバッチ内ノイズ混合拡張を導入します。
さらに、音響言語モデルの事前トレーニングの不安定性を克服するために幅広い設定を検討し、これにより、設計されたパラダイムを 95M から 330M のパラメーターに拡張できるようになります。
実験結果は、私たちのモデルが 14 の音楽理解タスクを一般化して良好に実行でき、最先端 (SOTA) の総合スコアを達成できることを示しています。
コードとモデルはオンライン: https://github.com/yizhilll/MERT にあります。
要約(オリジナル)
Self-supervised learning (SSL) has recently emerged as a promising paradigm for training generalisable models on large-scale data in the fields of vision, text, and speech. Although SSL has been proven effective in speech and audio, its application to music audio has yet to be thoroughly explored. This is primarily due to the distinctive challenges associated with modelling musical knowledge, particularly its tonal and pitched characteristics of music. To address this research gap, we propose an acoustic Music undERstanding model with large-scale self-supervised Training (MERT), which incorporates teacher models to provide pseudo labels in the masked language modelling (MLM) style acoustic pre-training. In our exploration, we identified a superior combination of teacher models, which outperforms conventional speech and audio approaches in terms of performance. This combination includes an acoustic teacher based on Residual Vector Quantization – Variational AutoEncoder (RVQ-VAE) and a musical teacher based on the Constant-Q Transform (CQT). These teachers effectively guide our student model, a BERT-style transformer encoder, to better model music audio. In addition, we introduce an in-batch noise mixture augmentation to enhance the representation robustness. Furthermore, we explore a wide range of settings to overcome the instability in acoustic language model pre-training, which allows our designed paradigm to scale from 95M to 330M parameters. Experimental results indicate that our model can generalise and perform well on 14 music understanding tasks and attains state-of-the-art (SOTA) overall scores. The code and models are online: https://github.com/yizhilll/MERT.
arxiv情報
著者 | Yizhi Li,Ruibin Yuan,Ge Zhang,Yinghao Ma,Xingran Chen,Hanzhi Yin,Chenghua Lin,Anton Ragni,Emmanouil Benetos,Norbert Gyenge,Roger Dannenberg,Ruibo Liu,Wenhu Chen,Gus Xia,Yemin Shi,Wenhao Huang,Yike Guo,Jie Fu |
発行日 | 2023-06-06 14:06:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google