要約
この論文では、音楽のSTEMの回復のタスクに取り組みます。
ミュージカルミックスを考えると、それはそれに合うステムを取得することで構成されています。つまり、一緒にプレイすると楽しいように聞こえます。
そのために、エンコーダーと予測子がコンテキストの潜在表現を生成し、ターゲットの潜在表現を予測するように共同でトレーニングされる共同埋め込み予測アーキテクチャに基づいて新しい方法を紹介します。
特に、任意の機器に条件付けられるように予測因子を設計し、モデルがゼロショットSTEM回復を実行できるようにします。
さらに、対照的な学習を使用してエンコーダーを前登録すると、モデルのパフォーマンスが大幅に向上することがわかります。
MUSDB18およびMoisesDBデータセットを使用して、モデルの検索パフォーマンスを検証します。
両方のデータセットの以前のベースラインを大幅に上回ることを示し、多かれ少なかれ正確な(そしておそらく目に見えない)条件付けをサポートする能力を紹介します。
また、ビート追跡タスクの学習した埋め込みを評価し、時間構造とローカル情報を保持することを実証します。
要約(オリジナル)
In this paper, we tackle the task of musical stem retrieval. Given a musical mix, it consists in retrieving a stem that would fit with it, i.e., that would sound pleasant if played together. To do so, we introduce a new method based on Joint-Embedding Predictive Architectures, where an encoder and a predictor are jointly trained to produce latent representations of a context and predict latent representations of a target. In particular, we design our predictor to be conditioned on arbitrary instruments, enabling our model to perform zero-shot stem retrieval. In addition, we discover that pretraining the encoder using contrastive learning drastically improves the model’s performance. We validate the retrieval performances of our model using the MUSDB18 and MoisesDB datasets. We show that it significantly outperforms previous baselines on both datasets, showcasing its ability to support more or less precise (and possibly unseen) conditioning. We also evaluate the learned embeddings on a beat tracking task, demonstrating that they retain temporal structure and local information.
arxiv情報
著者 | Alain Riou,Antonin Gagneré,Gaëtan Hadjeres,Stefan Lattner,Geoffroy Peeters |
発行日 | 2025-02-24 17:10:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google