Stem-JEPA: A Joint-Embedding Predictive Architecture for Musical Stem Compatibility Estimation


この課題に取り組むために、自己教師あり学習アプローチを使用してマルチトラック データセットでトレーニングされた新しい結合埋め込み予測アーキテクチャ (JEPA) である Stem-JEPA を紹介します。
私たちのモデルは、エンコーダーとプレディクターという 2 つのネットワークで構成されており、これらは、特定のコンテキスト (通常は複数の機器の組み合わせ) のエンベディングから互換性のあるステムのエンベディングを予測するために共同でトレーニングされます。
この方法でモデルをトレーニングすると、ステムの互換性の推定 (特定のミックスに一致するステムの取得、位置合わせ、生成) や、トレーニング パラダイムではモデルが関連情報を学習する必要があるため、ジャンルやキーの推定などの下流タスクに使用できるようになります。
MUDB18 データセットの検索タスクにおけるモデルのパフォーマンスを評価し、ミックスから欠落しているステムを見つける能力をユーザーの主観的な調査を通じてテストします。


This paper explores the automated process of determining stem compatibility by identifying audio recordings of single instruments that blend well with a given musical context. To tackle this challenge, we present Stem-JEPA, a novel Joint-Embedding Predictive Architecture (JEPA) trained on a multi-track dataset using a self-supervised learning approach. Our model comprises two networks: an encoder and a predictor, which are jointly trained to predict the embeddings of compatible stems from the embeddings of a given context, typically a mix of several instruments. Training a model in this manner allows its use in estimating stem compatibility – retrieving, aligning, or generating a stem to match a given mix – or for downstream tasks such as genre or key estimation, as the training paradigm requires the model to learn information related to timbre, harmony, and rhythm. We evaluate our model’s performance on a retrieval task on the MUSDB18 dataset, testing its ability to find the missing stem from a mix and through a subjective user study. We also show that the learned embeddings capture temporal alignment information and, finally, evaluate the representations learned by our model on several downstream tasks, highlighting that they effectively capture meaningful musical features.


著者 Alain Riou,Stefan Lattner,Gaëtan Hadjeres,Michael Anslow,Geoffroy Peeters
発行日 2024-08-05 14:34:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク