Subtractive Training for Music Stem Insertion using Latent Diffusion Models

要約

私たちは、他の楽器をコンテキストとして与えられた個々の楽器のステムを合成するためのシンプルで斬新な方法である、サブトラクティブ トレーニングを紹介します。
この方法では、完全な音楽ミックスのデータセットを、1) 特定のステムが欠落しているデータセットのバリアント、2) 欠落しているステムを再導入する方法を記述した LLM 生成の指示と組み合わせます。
次に、事前トレーニングされたテキストからオーディオへの拡散モデルを微調整して、既存のステムとテキスト命令の両方に基づいて、不足している楽器ステムを生成します。
私たちの結果は、既存のトラックとシームレスに融合する本物のドラムステムを作成する際の Subtractive Training の有効性を示しています。
また、テキスト命令を使用して、リズム、ダイナミクス、ジャンルの観点から挿入されたステムの生成を制御できることも示します。これにより、残りの楽器を同じに保ちながら、曲全体の 1 つの楽器のスタイルを変更できるようになります。
最後に、このテクニックを MIDI フォーマットに拡張し、不完全なアレンジでも互換性のあるベース、ドラム、ギターのパートを生成することに成功しました。

要約(オリジナル)

We present Subtractive Training, a simple and novel method for synthesizing individual musical instrument stems given other instruments as context. This method pairs a dataset of complete music mixes with 1) a variant of the dataset lacking a specific stem, and 2) LLM-generated instructions describing how the missing stem should be reintroduced. We then fine-tune a pretrained text-to-audio diffusion model to generate the missing instrument stem, guided by both the existing stems and the text instruction. Our results demonstrate Subtractive Training’s efficacy in creating authentic drum stems that seamlessly blend with the existing tracks. We also show that we can use the text instruction to control the generation of the inserted stem in terms of rhythm, dynamics, and genre, allowing us to modify the style of a single instrument in a full song while keeping the remaining instruments the same. Lastly, we extend this technique to MIDI formats, successfully generating compatible bass, drum, and guitar parts for incomplete arrangements.

arxiv情報

著者 Ivan Villa-Renteria,Mason L. Wang,Zachary Shah,Zhe Li,Soohyun Kim,Neelesh Ramachandran,Mert Pilanci
発行日 2024-06-27 16:59:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク