A Survey of Music Generation in the Context of Interaction

要約

近年、機械学習、特に敵対的生成ニューラル ネットワーク (GAN) と注意ベースのニューラル ネットワーク (トランスフォーマー) を使用して、メロディーとポリフォニック作品の両方の音楽を作曲および生成することに成功しています。
現在の研究は、大量の録音または転写された音楽に基づくスタイルの複製(例:バッハスタイルのコラールの生成)またはスタイルの転移(例:クラシックからジャズ)に最も重点を置いており、これによりかなり単純な「演奏」も可能になります。
評価。
ただし、これらのモデルのほとんどは、ライブ インタラクションを介した人間とマシンの共同作成には適しておらず、そのようなモデルとその結果として得られる作成物がどのように評価されるのかも明らかではありません。
この記事では、音楽表現、特徴分析、ヒューリスティック アルゴリズム、統計モデリングとパラメトリック モデリング、および人による評価尺度および自動評価尺度を徹底的にレビューし、どのアプローチとモデルがライブ インタラクションに最も適していると思われるかについて説明します。

要約(オリジナル)

In recent years, machine learning, and in particular generative adversarial neural networks (GANs) and attention-based neural networks (transformers), have been successfully used to compose and generate music, both melodies and polyphonic pieces. Current research focuses foremost on style replication (eg. generating a Bach-style chorale) or style transfer (eg. classical to jazz) based on large amounts of recorded or transcribed music, which in turn also allows for fairly straight-forward ‘performance’ evaluation. However, most of these models are not suitable for human-machine co-creation through live interaction, neither is clear, how such models and resulting creations would be evaluated. This article presents a thorough review of music representation, feature analysis, heuristic algorithms, statistical and parametric modelling, and human and automatic evaluation measures, along with a discussion of which approaches and models seem most suitable for live interaction.

arxiv情報

著者 Ismael Agchar,Ilja Baumann,Franziska Braun,Paula Andrea Perez-Toro,Korbinian Riedhammer,Sebastian Trump,Martin Ullrich
発行日 2024-02-23 12:41:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS パーマリンク