Structure-informed Positional Encoding for Music Generation

要約

ディープラーニング手法によって生成された音楽は、多くの場合、一貫性や長期にわたる構成の欠如に悩まされます。
しかし、マルチスケールの階層構造は音楽信号の特徴です。
この情報を活用するために、トランスフォーマーによる音楽生成のための構造情報に基づいた位置エンコーディング フレームワークを提案します。
絶対位置情報、相対位置情報、非定常位置情報の観点から 3 つのバリエーションを設計します。
次のタイムステップ予測と伴奏生成という 2 つのシンボリック音楽生成タスクでそれらを包括的にテストします。
比較として、文献から複数のベースラインを選択し、音楽を動機としたいくつかの評価基準を使用して、私たちの方法の利点を実証します。
特に、私たちの方法は、生成された曲のメロディーと構造の一貫性を向上させます。

要約(オリジナル)

Music generated by deep learning methods often suffers from a lack of coherence and long-term organization. Yet, multi-scale hierarchical structure is a distinctive feature of music signals. To leverage this information, we propose a structure-informed positional encoding framework for music generation with Transformers. We design three variants in terms of absolute, relative and non-stationary positional information. We comprehensively test them on two symbolic music generation tasks: next-timestep prediction and accompaniment generation. As a comparison, we choose multiple baselines from the literature and demonstrate the merits of our methods using several musically-motivated evaluation metrics. In particular, our methods improve the melodic and structural consistency of the generated pieces.

arxiv情報

著者 Manvi Agarwal,Changhong Wang,Gaël Richard
発行日 2024-02-28 12:37:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク