要約
Deep Learningがさまざまなドメインにまたがるスタイル転送における顕著な進歩にもかかわらず、完全に象徴的に表現された音楽作品のための制御可能なパフォーマンスレベルの音楽スタイル転送を生成することは、挑戦的な研究分野です。
これの多くは、特にジャズなどのジャンルや、複数の音楽生成タスクを処理できる統一されたモデルがないため、限られたデータセットに債務があります。
このホワイトペーパーでは、自己監視された腐敗 – 修正トレーニング戦略を通じて表現力豊かで制御可能な音楽即興を生み出す変圧器ベースのアーキテクチャであるImprovnetを紹介します。
即興スタイルの転送は、ターゲットジャンルに対する元の構成のメロディー、ハーモニー、またはリズムなど、1つ以上の音楽要素を意味のある変更を加えることを目的としています。
Improvnetは、単一のモデル内で複数の機能を統合します。ジャンルとジャンル内の即興演奏を実行し、ジャンル固有のスタイルでメロディーを調和させ、短い迅速な継続と充填タスクを実行します。
モデルの反復的な生成フレームワークにより、ユーザーはスタイルの転送の程度と構造的類似性を元の構成と制御できます。
客観的で主観的な評価は、元の部分と構造的な関係を維持しながら、音楽的に一貫した即興演奏を生み出す際の即興の有効性を示しています。
このモデルは、短時間の継続および浸漬タスクで予測音楽トランスを上回り、認識可能なジャンル変換を成功裏に達成し、参加者の79%が古典的な作品のジャズスタイルの即興演奏を正しく識別します。
私たちのコードとデモのページは、https://github.com/keshavbhandari/improvnetにあります。
要約(オリジナル)
Despite deep learning’s remarkable advances in style transfer across various domains, generating controllable performance-level musical style transfer for complete symbolically represented musical works remains a challenging area of research. Much of this is owed to limited datasets, especially for genres such as jazz, and the lack of unified models that can handle multiple music generation tasks. This paper presents ImprovNet, a transformer-based architecture that generates expressive and controllable musical improvisations through a self-supervised corruption-refinement training strategy. The improvisational style transfer is aimed at making meaningful modifications to one or more musical elements – melody, harmony or rhythm of the original composition with respect to the target genre. ImprovNet unifies multiple capabilities within a single model: it can perform cross-genre and intra-genre improvisations, harmonize melodies with genre-specific styles, and execute short prompt continuation and infilling tasks. The model’s iterative generation framework allows users to control the degree of style transfer and structural similarity to the original composition. Objective and subjective evaluations demonstrate ImprovNet’s effectiveness in generating musically coherent improvisations while maintaining structural relationships with the original pieces. The model outperforms Anticipatory Music Transformer in short continuation and infilling tasks and successfully achieves recognizable genre conversion, with 79\% of participants correctly identifying jazz-style improvisations of classical pieces. Our code and demo page can be found at https://github.com/keshavbhandari/improvnet.
arxiv情報
著者 | Keshav Bhandari,Sungkyun Chang,Tongyu Lu,Fareza R. Enus,Louis B. Bradshaw,Dorien Herremans,Simon Colton |
発行日 | 2025-05-16 14:56:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google