要約
Transformerのような強力なシーケンスモデルを用いても、長距離の音楽構造を持つ表現力豊かなピアノ演奏の生成は困難である。一方、より単純な音楽であるメロディやリードシート(メロディ+コード)を構成する手法が成功を収めている。このような背景から、私たちは、まずリードシートを作曲し、次にそれを伴奏や表現で装飾する、2段階のTransformerベースのフレームワークを考案しました。このような因数分解は、ピアノ以外のデータでの事前学習も可能にします。私たちの客観的・主観的な実験によると、Compose & Embellishは、現状と実際の演奏との間の構造性のギャップを半分に縮小し、豊かさや一貫性といった他の音楽的側面も改善することが示されました。
要約(オリジナル)
Even with strong sequence models like Transformers, generating expressive piano performances with long-range musical structures remains challenging. Meanwhile, methods to compose well-structured melodies or lead sheets (melody + chords), i.e., simpler forms of music, gained more success. Observing the above, we devise a two-stage Transformer-based framework that Composes a lead sheet first, and then Embellishes it with accompaniment and expressive touches. Such a factorization also enables pretraining on non-piano data. Our objective and subjective experiments show that Compose & Embellish shrinks the gap in structureness between a current state of the art and real performances by half, and improves other musical aspects such as richness and coherence as well.
arxiv情報
著者 | Shih-Lun Wu,Yi-Hsuan Yang |
発行日 | 2023-03-07 14:19:17+00:00 |
arxivサイト | arxiv_id(pdf) |