JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation

要約

生成人工知能の急速な進歩に伴い、テキストから音楽への合成タスクが、ゼロから音楽を生成するための有望な方向性として浮上しました。
ただし、マルチトラック生成をよりきめ細かく制御することは、未解決の課題のままです。
既存のモデルは強力な raw 生成機能を備えていますが、人間の作曲家の典型的なワークフローとは異なり、個別のトラックを作成し、それらを制御可能な方法で組み合わせる柔軟性に欠けています。
この問題に対処するために、私たちは、単一のモデルを介してマルチトラック音楽上の限界分布、条件分布、結合分布を効率的にモデル化するための統合フレームワークである JEN-1 Composer を提案します。
JEN-1 Composer フレームワークは、あらゆる拡散ベースの音楽生成システム \textit{e.g.} Jen-1 をシームレスに組み込む能力を示し、多用途のマルチトラック音楽生成の能力を強化します。
シングルトラック生成からマルチトラックの組み合わせの柔軟な生成への移行においてモデルを段階的に指示することを目的としたカリキュラム トレーニング戦略を導入します。
推論中、ユーザーは自分の好みに合った音楽トラックを繰り返し作成および選択することができ、その後、提案されている Human-AI 共作曲ワークフローに従って段階的に楽曲全体を作成できます。
定量的および定性的評価により、制御可能で忠実度の高いマルチトラック音楽合成における最先端のパフォーマンスが実証されます。
提案された JEN-1 Composer は、AI によって促進されるインタラクティブな音楽作成と作曲に向けた大きな進歩を表しています。
デモは https://jenmusic.ai/audio-demos で入手できます。

要約(オリジナル)

With rapid advances in generative artificial intelligence, the text-to-music synthesis task has emerged as a promising direction for music generation from scratch. However, finer-grained control over multi-track generation remains an open challenge. Existing models exhibit strong raw generation capability but lack the flexibility to compose separate tracks and combine them in a controllable manner, differing from typical workflows of human composers. To address this issue, we propose JEN-1 Composer, a unified framework to efficiently model marginal, conditional, and joint distributions over multi-track music via a single model. JEN-1 Composer framework exhibits the capacity to seamlessly incorporate any diffusion-based music generation system, \textit{e.g.} Jen-1, enhancing its capacity for versatile multi-track music generation. We introduce a curriculum training strategy aimed at incrementally instructing the model in the transition from single-track generation to the flexible generation of multi-track combinations. During the inference, users have the ability to iteratively produce and choose music tracks that meet their preferences, subsequently creating an entire musical composition incrementally following the proposed Human-AI co-composition workflow. Quantitative and qualitative assessments demonstrate state-of-the-art performance in controllable and high-fidelity multi-track music synthesis. The proposed JEN-1 Composer represents a significant advance toward interactive AI-facilitated music creation and composition. Demos will be available at https://jenmusic.ai/audio-demos.

arxiv情報

著者 Yao Yao,Peike Li,Boyu Chen,Alex Wang
発行日 2023-10-29 22:51:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS パーマリンク