MusicRL: Aligning Music Generation to Human Preferences

要約

私たちは人間のフィードバックから微調整された初の音楽生成システム MusicRL を提案します。
音楽性の概念とキャプションの背後にある特定の意図はユーザーに依存するため、テキスト音楽モデルの評価は特に主観的です (たとえば、「明るいワークアウト音楽」などのキャプションは、レトロなギターソロや、
テクノポップビート)。
これにより、このようなモデルの教師ありトレーニングが困難になるだけでなく、デプロイ後の微調整に人間による継続的なフィードバックを統合する必要もあります。
MusicRL は、系列レベルの報酬を最大化するために強化学習で微調整された離散オーディオ トークンの事前トレーニング済み自己回帰 MusicLM (Agostinelli et al., 2023) モデルです。
私たちは、選ばれた評価者の協力を得て、特にテキスト遵守とオーディオ品質に関連する報酬関数を設計し、それらを使用して MusicLM を MusicRL-R に微調整します。
私たちは MusicLM をユーザーに展開し、300,000 のペアごとの好みを含む実質的なデータセットを収集します。
私たちは、ヒューマン フィードバックからの強化学習 (RLHF) を使用して、人間のフィードバックを大規模に組み込んだ最初のテキストから音楽へのモデルである MusicRL-U をトレーニングします。
人間による評価では、MusicRL-R と MusicRL-U の両方がベースラインよりも好まれることが示されています。
最終的に、MusicRL-RU は 2 つのアプローチを組み合わせ、人間の評価者によると最良のモデルをもたらします。
アブレーション研究は、人間の好みに影響を与える音楽の属性を明らかにし、テキストの遵守と品質はその一部にすぎないことを示しています。
これは、音楽鑑賞において主観性が蔓延していることを強調しており、音楽生成モデルの微調整に人間のリスナーがさらに関与する必要があることを示しています。

要約(オリジナル)

We propose MusicRL, the first music generation system finetuned from human feedback. Appreciation of text-to-music models is particularly subjective since the concept of musicality as well as the specific intention behind a caption are user-dependent (e.g. a caption such as ‘upbeat work-out music’ can map to a retro guitar solo or a techno pop beat). Not only this makes supervised training of such models challenging, but it also calls for integrating continuous human feedback in their post-deployment finetuning. MusicRL is a pretrained autoregressive MusicLM (Agostinelli et al., 2023) model of discrete audio tokens finetuned with reinforcement learning to maximise sequence-level rewards. We design reward functions related specifically to text-adherence and audio quality with the help from selected raters, and use those to finetune MusicLM into MusicRL-R. We deploy MusicLM to users and collect a substantial dataset comprising 300,000 pairwise preferences. Using Reinforcement Learning from Human Feedback (RLHF), we train MusicRL-U, the first text-to-music model that incorporates human feedback at scale. Human evaluations show that both MusicRL-R and MusicRL-U are preferred to the baseline. Ultimately, MusicRL-RU combines the two approaches and results in the best model according to human raters. Ablation studies shed light on the musical attributes influencing human preferences, indicating that text adherence and quality only account for a part of it. This underscores the prevalence of subjectivity in musical appreciation and calls for further involvement of human listeners in the finetuning of music generation models.

arxiv情報

著者 Geoffrey Cideron,Sertan Girgin,Mauro Verzetti,Damien Vincent,Matej Kastelic,Zalán Borsos,Brian McWilliams,Victor Ungureanu,Olivier Bachem,Olivier Pietquin,Matthieu Geist,Léonard Hussenot,Neil Zeghidour,Andrea Agostinelli
発行日 2024-02-06 18:36:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク