MIDI-GPT: A Controllable Generative Model for Computer-Assisted Multitrack Music Composition

要約

コンピューター支援の音楽構成ワークフロー向けに設計された変圧器アーキテクチャに基づいた生成システムであるMIDI-GPTを発表してリリースします。
MIDI-GPTは、トラックとバーレベルでの音楽素材の充填をサポートし、機器の種類、音楽スタイル、メモ密度、ポリフォニーレベル、ノートの期間を含む属性の条件を条件付けることができます。
これらの機能を統合するために、音楽素材の代替表現を採用し、各トラックの時間順の音楽イベントを作成し、音楽イベントが単一のタイム順序付きシーケンスを使用するのではなく、いくつかのトラックを単一のシーケンスに連結します。
さまざまなトラックに対応するのはインターリーブです。
また、表現力を可能にする表現のバリエーションを提案します。
MIDI-GPTは、トレーニングされた音楽素材の複製を一貫して避け、トレーニングデータセットとスタイリスト的に類似した音楽を生成し、属性コントロールが生成された素材のさまざまな制約を実施できることを実証する実験結果を提示します。
また、MIDI-GPTの商用製品への統合と評価を探求する業界パートナーとのコラボレーションや、それを使用して制作されたいくつかの芸術作品を調査する業界パートナーとのコラボレーションなど、MIDI-GPTのいくつかの実際のアプリケーションの概要を説明します。

要約(オリジナル)

We present and release MIDI-GPT, a generative system based on the Transformer architecture that is designed for computer-assisted music composition workflows. MIDI-GPT supports the infilling of musical material at the track and bar level, and can condition generation on attributes including: instrument type, musical style, note density, polyphony level, and note duration. In order to integrate these features, we employ an alternative representation for musical material, creating a time-ordered sequence of musical events for each track and concatenating several tracks into a single sequence, rather than using a single time-ordered sequence where the musical events corresponding to different tracks are interleaved. We also propose a variation of our representation allowing for expressiveness. We present experimental results that demonstrate that MIDI-GPT is able to consistently avoid duplicating the musical material it was trained on, generate music that is stylistically similar to the training dataset, and that attribute controls allow enforcing various constraints on the generated material. We also outline several real-world applications of MIDI-GPT, including collaborations with industry partners that explore the integration and evaluation of MIDI-GPT into commercial products, as well as several artistic works produced using it.

arxiv情報

著者 Philippe Pasquier,Jeff Ens,Nathan Fradet,Paul Triana,Davide Rizzotti,Jean-Baptiste Rolland,Maryam Safi
発行日 2025-01-28 15:17:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS パーマリンク