Generalized Multi-Source Inference for Text Conditioned Music Diffusion Models

要約

マルチソース拡散モデル (MSDM) を使用すると、一貫したソースのセットの生成、伴奏の作成、ソース分離の実行など、作曲的な音楽生成タスクが可能になります。
多用途性にもかかわらず、ソース全体の結合分布を推定する必要があり、めったに入手できない事前に分離された音楽データが必要であり、トレーニング時にソースの数と種類を固定する必要があります。
この論文では、MSDM をテキスト埋め込みを条件とした任意の時間領域拡散モデルに一般化します。
これらのモデルは混合物でトレーニングされるため、分離されたデータを必要とせず、任意の数のソースをパラメータ化でき、豊富なセマンティック制御が可能です。
ソースと伴奏の一貫した生成を可能にする推論手順を提案します。
さらに、ソース分離を実行するために MSDM のディラック分離器を適応させます。
Slakh2100 と MTG-Jamendo でトレーニングされた拡散モデルを実験し、緩和されたデータ設定での競合生成と分離の結果を示します。

要約(オリジナル)

Multi-Source Diffusion Models (MSDM) allow for compositional musical generation tasks: generating a set of coherent sources, creating accompaniments, and performing source separation. Despite their versatility, they require estimating the joint distribution over the sources, necessitating pre-separated musical data, which is rarely available, and fixing the number and type of sources at training time. This paper generalizes MSDM to arbitrary time-domain diffusion models conditioned on text embeddings. These models do not require separated data as they are trained on mixtures, can parameterize an arbitrary number of sources, and allow for rich semantic control. We propose an inference procedure enabling the coherent generation of sources and accompaniments. Additionally, we adapt the Dirac separator of MSDM to perform source separation. We experiment with diffusion models trained on Slakh2100 and MTG-Jamendo, showcasing competitive generation and separation results in a relaxed data setting.

arxiv情報

著者 Emilian Postolache,Giorgio Mariani,Luca Cosmo,Emmanouil Benetos,Emanuele Rodolà
発行日 2024-03-18 12:08:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク