Efficient Fine-Grained Guidance for Diffusion Model Based Symbolic Music Generation

要約

生成モデルを開発して、象徴的な音楽を作成または条件付けて作成することは、データの可用性が限られていることとメモピッチの高精度の必要性の組み合わせにより、独自の課題を提示します。
これらの課題に対処するために、拡散モデル内に効率的な細かいガイダンス(FGG)アプローチを導入します。
FGGは、拡散モデルをガイドして、生成された音楽の精度、リステリビリティ、品質を向上させるために重要な専門家の作曲家の制御と意図とより密接に一致する音楽を生成します。
このアプローチにより、拡散モデルは、即興演奏やインタラクティブな音楽作成などの高度なアプリケーションで優れています。
象徴的な音楽生成における課題とFGGアプローチの効果の両方について、理論的特性を導き出します。
数値実験と主観的評価を提供して、アプローチの有効性を実証します。
リアルタイムのインタラクティブな生成を可能にするパフォーマンスを紹介するデモページを公開しました。

要約(オリジナル)

Developing generative models to create or conditionally create symbolic music presents unique challenges due to the combination of limited data availability and the need for high precision in note pitch. To address these challenges, we introduce an efficient Fine-Grained Guidance (FGG) approach within diffusion models. FGG guides the diffusion models to generate music that aligns more closely with the control and intent of expert composers, which is critical to improve the accuracy, listenability, and quality of generated music. This approach empowers diffusion models to excel in advanced applications such as improvisation, and interactive music creation. We derive theoretical characterizations for both the challenges in symbolic music generation and the effects of the FGG approach. We provide numerical experiments and subjective evaluation to demonstrate the effectiveness of our approach. We have published a demo page to showcase performances, which enables real-time interactive generation.

arxiv情報

著者 Tingyu Zhu,Haoyu Liu,Ziyu Wang,Zhimin Jiang,Zeyu Zheng
発行日 2025-06-06 13:03:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MM, cs.SD, eess.AS パーマリンク