要約
音楽モチーフは、作曲の概念的な構成要素として、音楽構造の分析と自動作曲にとって重要です。
人間の聞き手はモチーフを簡単に識別できますが、既存の計算モデルはモチーフとその展開を表現するには不十分です。
その理由は、モチーフの性質が暗黙的であり、モチーフのバリエーションの多様性が単純な繰り返しや変調を超えているためです。
この研究では、シャム ネットワーク アーキテクチャと事前トレーニングおよび微調整パイプラインを使用した表現学習を通じて、モチーフとそのバリエーションの間の暗黙の関係を学習することを目的としています。
事前トレーニングには正則化ベースの手法である VICReg が採用され、微調整には対照学習が使用されます。
検索ベースのタスクに関する実験結果は、これら 2 つの方法が相互に補完し、適合率-再現率曲線の下の領域で 12.6% の改善が得られることを示しています。
最後に、取得したモチーフ表現を視覚化して、楽曲の全体構造を直感的に理解できるようにします。
私たちが知る限り、この研究は音楽モチーフの計算モデリングにおける注目に値する前進を示しています。
私たちは、この研究が自動音楽作曲や音楽情報検索におけるモチーフの将来の応用の基礎を築くと信じています。
要約(オリジナル)
Music motif, as a conceptual building block of composition, is crucial for music structure analysis and automatic composition. While human listeners can identify motifs easily, existing computational models fall short in representing motifs and their developments. The reason is that the nature of motifs is implicit, and the diversity of motif variations extends beyond simple repetitions and modulations. In this study, we aim to learn the implicit relationship between motifs and their variations via representation learning, using the Siamese network architecture and a pretraining and fine-tuning pipeline. A regularization-based method, VICReg, is adopted for pretraining, while contrastive learning is used for fine-tuning. Experimental results on a retrieval-based task show that these two methods complement each other, yielding an improvement of 12.6% in the area under the precision-recall curve. Lastly, we visualize the acquired motif representations, offering an intuitive comprehension of the overall structure of a music piece. As far as we know, this work marks a noteworthy step forward in computational modeling of music motifs. We believe that this work lays the foundations for future applications of motifs in automatic music composition and music information retrieval.
arxiv情報
著者 | Yuxuan Wu,Roger B. Dannenberg,Gus Xia |
発行日 | 2023-09-19 13:09:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google