Controllable Music Production with Diffusion Models and Guidance Gradients

要約

拡散モデルからの条件付き生成を使用して、サンプリング時間ガイダンスを使用した 44.1kHz ステレオ オーディオでの音楽制作におけるさまざまな現実的なタスクに取り組む方法を示します。
私たちが検討するシナリオには、音楽オーディオの継続、修復、再生成、2 つの異なる音楽トラック間のスムーズなトランジションの作成、および既存のオーディオ クリップへの必要なスタイル特性の転送が含まれます。
これは、再構築と分類損失の両方、またはその 2 つの組み合わせをサポートする単純なフレームワークでサンプリング時にガイダンスを適用することで実現されます。
このアプローチにより、生成されたオーディオが周囲のコンテキストと一致したり、適切な事前トレーニングされた分類器や埋め込みモデルに関連して指定されたクラス分布や潜在表現に準拠したりすることが保証されます。

要約(オリジナル)

We demonstrate how conditional generation from diffusion models can be used to tackle a variety of realistic tasks in the production of music in 44.1kHz stereo audio with sampling-time guidance. The scenarios we consider include continuation, inpainting and regeneration of musical audio, the creation of smooth transitions between two different music tracks, and the transfer of desired stylistic characteristics to existing audio clips. We achieve this by applying guidance at sampling time in a simple framework that supports both reconstruction and classification losses, or any combination of the two. This approach ensures that generated audio can match its surrounding context, or conform to a class distribution or latent representation specified relative to any suitable pre-trained classifier or embedding model.

arxiv情報

著者 Mark Levy,Bruno Di Giorgi,Floris Weers,Angelos Katharopoulos,Tom Nickson
発行日 2023-11-01 16:01:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク