MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models

要約

テキストから音楽への生成モデルの最近の進歩により、音楽の創造性に新たな道が開かれました。
ただし、音楽の生成には通常、反復的な調整が必要であり、生成された音楽をどのように編集するかが依然として大きな課題です。
この論文では、そのようなモデルによって生成された音楽の編集に対する新しいアプローチを紹介します。これにより、他の側面を変更せずに、ジャンル、ムード、楽器などの特定の属性を変更できます。
私たちの方法は、一貫性を強制するために追加の制約を追加しながら、テキスト編集を \textit{潜在空間操作} に変換します。
追加のトレーニングを必要とせずに、既存の事前トレーニング済みのテキストから音楽への拡散モデルとシームレスに統合します。
実験結果は、スタイルと音色伝達の評価において、ゼロショットと特定の教師付きベースラインの両方を上回る優れたパフォーマンスを示しています。
さらに、実際の音楽編集シナリオにおけるアプローチの実際的な適用可能性を紹介します。

要約(オリジナル)

Recent advances in text-to-music generation models have opened new avenues in musical creativity. However, music generation usually involves iterative refinements, and how to edit the generated music remains a significant challenge. This paper introduces a novel approach to the editing of music generated by such models, enabling the modification of specific attributes, such as genre, mood and instrument, while maintaining other aspects unchanged. Our method transforms text editing to \textit{latent space manipulation} while adding an extra constraint to enforce consistency. It seamlessly integrates with existing pretrained text-to-music diffusion models without requiring additional training. Experimental results demonstrate superior performance over both zero-shot and certain supervised baselines in style and timbre transfer evaluations. Additionally, we showcase the practical applicability of our approach in real-world music editing scenarios.

arxiv情報

著者 Yixiao Zhang,Yukara Ikemiya,Gus Xia,Naoki Murata,Marco A. Martínez-Ramírez,Wei-Hsiang Liao,Yuki Mitsufuji,Simon Dixon
発行日 2024-05-28 16:47:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS パーマリンク