Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning

要約

テキストから音楽への編集における最近の進歩は、テキスト クエリを使用して音楽を変更する (スタイルの変更や楽器コンポーネントの調整など) ことで、AI 支援による音楽作成に特有の課題と機会をもたらしています。
この分野におけるこれまでのアプローチは、特定の編集モデルを最初からトレーニングする必要があるという制約があり、これはリソースを大量に消費し、非効率的でした。
他の研究では、編集された音楽を予測するために大規模な言語モデルを使用しており、その結果、オーディオの再構成が不正確になります。
強みを組み合わせてこれらの制限に対処するために、ステムの追加、削除、分離などの編集指示に効率的に従うように事前トレーニングされた MusicGen モデルを微調整する新しいアプローチである Instruct-MusicGen を導入します。
私たちのアプローチには、テキスト フュージョン モジュールとオーディオ フュージョン モジュールを組み込むことによるオリジナルの MusicGen アーキテクチャの変更が含まれます。これにより、モデルが指示テキストとオーディオ入力を同時に処理して、目的の編集済み音楽を生成できるようになります。
注目すべきことに、Instruct-MusicGen は元の MusicGen モデルに 8% の新しいパラメータを導入するだけで、5K ステップのトレーニングのみを行っていますが、それでも既存のベースラインと比較してすべてのタスクにわたって優れたパフォーマンスを達成し、特定のタスク用にトレーニングされたモデルと同等のパフォーマンスを示します。
この進歩により、テキストから音楽への編集効率が向上するだけでなく、動的な音楽制作環境における音楽言語モデルの適用可能性も広がります。

要約(オリジナル)

Recent advances in text-to-music editing, which employ text queries to modify music (e.g.\ by changing its style or adjusting instrumental components), present unique challenges and opportunities for AI-assisted music creation. Previous approaches in this domain have been constrained by the necessity to train specific editing models from scratch, which is both resource-intensive and inefficient; other research uses large language models to predict edited music, resulting in imprecise audio reconstruction. To Combine the strengths and address these limitations, we introduce Instruct-MusicGen, a novel approach that finetunes a pretrained MusicGen model to efficiently follow editing instructions such as adding, removing, or separating stems. Our approach involves a modification of the original MusicGen architecture by incorporating a text fusion module and an audio fusion module, which allow the model to process instruction texts and audio inputs concurrently and yield the desired edited music. Remarkably, Instruct-MusicGen only introduces 8% new parameters to the original MusicGen model and only trains for 5K steps, yet it achieves superior performance across all tasks compared to existing baselines, and demonstrates performance comparable to the models trained for specific tasks. This advancement not only enhances the efficiency of text-to-music editing but also broadens the applicability of music language models in dynamic music production environments.

arxiv情報

著者 Yixiao Zhang,Yukara Ikemiya,Woosung Choi,Naoki Murata,Marco A. Martínez-Ramírez,Liwei Lin,Gus Xia,Wei-Hsiang Liao,Yuki Mitsufuji,Simon Dixon
発行日 2024-05-28 17:27:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MM, cs.SD, eess.AS パーマリンク