Reconstructing Human Expressiveness in Piano Performances with a Transformer Network

要約

コンピュータによるアプローチを使用して、音楽演奏における人間の表現力の複雑かつ微妙な変化を捉えることは困難です。
この論文では、多層双方向Transformerエンコーダを使用してピアノ演奏における人間の表現力を再構築するための新しいアプローチを提案します。
ニューラル ネットワークのトレーニングにおいて、正確にキャプチャされスコアが調整された大量のパフォーマンス データのニーズに応えるために、既存の転写モデルから取得した転写スコアを使用してモデルをトレーニングします。
ピアニストのアイデンティティを統合してサンプリングプロセスを制御し、さまざまなピアニストの表現力の変化をモデル化するシステムの機能を調査します。
このシステムは、生成された表現力豊かな演奏の統計分析とリスニングテストを通じて評価されます。
全体として、この結果は、私たちの方法が、転写された楽譜から人間のようなピアノ演奏を生成する点で最先端の技術を達成している一方で、人間の表現力を完全かつ一貫して再構築することはさらなる課題であることを示唆しています。

要約(オリジナル)

Capturing intricate and subtle variations in human expressiveness in music performance using computational approaches is challenging. In this paper, we propose a novel approach for reconstructing human expressiveness in piano performance with a multi-layer bi-directional Transformer encoder. To address the needs for large amounts of accurately captured and score-aligned performance data in training neural networks, we use transcribed scores obtained from an existing transcription model to train our model. We integrate pianist identities to control the sampling process and explore the ability of our system to model variations in expressiveness for different pianists. The system is evaluated through statistical analysis of generated expressive performances and a listening test. Overall, the results suggest that our method achieves state-of-the-art in generating human-like piano performances from transcribed scores, while fully and consistently reconstructing human expressiveness poses further challenges.

arxiv情報

著者 Jingjing Tang,Geraint Wiggins,George Fazekas
発行日 2023-06-09 17:05:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク