要約
テキストから音楽の生成モデルのブレークスルーは、創造的な状況を変えており、ミュージシャンにこれまでにないように構成や実験のための革新的なツールを装備しています。
ただし、特定の望ましい結果を達成するために生成プロセスを制御することは重要な課題です。
テキストプロンプトのわずかな変更でさえ、同じランダムシードと組み合わされて、生成されたピースを大幅に変更できます。
この論文では、機器編集のための既存のテキストから音楽への拡散モデルの適用を調べます。
具体的には、既存のオーディオトラックの場合、基礎となるコンテンツを保存しながら、事前に処理されたテキストから音楽への拡散モデルを活用して機器を編集することを目指しています。
モデルが最初にオーディオの全体的な構造またはコンテンツに焦点を当て、次に機器情報を追加し、最終的に品質を改良するという洞察に基づいて、機器分類器を介して識別される適切に選択された中間タイムステップを選択すると、元の作品のコンテンツを保存し、望ましいティムブレを達成することとのバランスが得られることを示します。
私たちの方法では、テキストから音楽への拡散モデルの追加トレーニングは必要ありませんし、生成プロセスの速度を損なうものでもありません。
要約(オリジナル)
Breakthroughs in text-to-music generation models are transforming the creative landscape, equipping musicians with innovative tools for composition and experimentation like never before. However, controlling the generation process to achieve a specific desired outcome remains a significant challenge. Even a minor change in the text prompt, combined with the same random seed, can drastically alter the generated piece. In this paper, we explore the application of existing text-to-music diffusion models for instrument editing. Specifically, for an existing audio track, we aim to leverage a pretrained text-to-music diffusion model to edit the instrument while preserving the underlying content. Based on the insight that the model first focuses on the overall structure or content of the audio, then adds instrument information, and finally refines the quality, we show that selecting a well-chosen intermediate timestep, identified through an instrument classifier, yields a balance between preserving the original piece’s content and achieving the desired timbre. Our method does not require additional training of the text-to-music diffusion model, nor does it compromise the generation process’s speed.
arxiv情報
著者 | Teysir Baoueb,Xiaoyu Bie,Xi Wang,Gaël Richard |
発行日 | 2025-06-18 15:01:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google