要約
変圧器モデルを使用してマルチトラック音楽を生成するための既存のアプローチは、楽器の数、音楽セグメントの長さ、および遅い推論の点で制限されていました。
これは、一部には、既存の表現で必要とされる長い入力シーケンスのメモリ要件によるものです。
この作業では、短いシーケンス長を維持しながら多様な楽器のセットを可能にする新しいマルチトラック音楽表現を提案します。
私たちが提案するマルチトラック ミュージック トランスフォーマー (MMT) は、最先端のシステムと同等のパフォーマンスを達成し、主観的なリスニング テストで最近提案された 2 つのモデルの中間に位置し、両方で大幅なスピードアップとメモリ削減を達成し、この方法を実際に魅力的なものにしています。
時間の即興またはほぼリアルタイムの創造的なアプリケーション。
さらに、音楽の自己注意を分析するための新しい尺度を提案し、トレーニングされたモデルが、現在の音符と子音間隔を形成する音符と、現在のステップから 4N ビート離れた音符に注意を払うことを示します。
要約(オリジナル)
Existing approaches for generating multitrack music with transformer models have been limited in terms of the number of instruments, the length of the music segments and slow inference. This is partly due to the memory requirements of the lengthy input sequences necessitated by existing representations. In this work, we propose a new multitrack music representation that allows a diverse set of instruments while keeping a short sequence length. Our proposed Multitrack Music Transformer (MMT) achieves comparable performance with state-of-the-art systems, landing in between two recently proposed models in a subjective listening test, while achieving substantial speedups and memory reductions over both, making the method attractive for real time improvisation or near real time creative applications. Further, we propose a new measure for analyzing musical self-attention and show that the trained model attends more to notes that form a consonant interval with the current note and to notes that are 4N beats away from the current step.
arxiv情報
著者 | Hao-Wen Dong,Ke Chen,Shlomo Dubnov,Julian McAuley,Taylor Berg-Kirkpatrick |
発行日 | 2023-03-20 07:01:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google