Text2midi: Generating Symbolic Music from Captions


この文書では、テキスト記述から MIDI ファイルを生成するエンドツーエンド モデルである text2midi を紹介します。
マルチモーダル生成アプローチの人気の高まりを利用して、text2midi はテキスト データの広範な可用性と大規模言語モデル (LLM) の成功を活用します。
当社のエンドツーエンド システムは、LLM の力を利用して、MIDI ファイルの形式で象徴的な音楽を生成します。
具体的には、事前トレーニング済み LLM エンコーダーを利用してキャプションを処理し、その後、自己回帰トランスフォーマー デコーダーを調整して、提供された説明を正確に反映する MIDI シーケンスを生成します。
私たちは、自動化された研究と人間による研究の両方を組み込んだ包括的な経験的評価を実施しています。その結果、私たちのモデルが高品質の MIDI ファイルを生成し、コード、キー、テンポなどの音楽理論用語が含まれる可能性のあるテキスト キャプションによって実際に制御可能であることが示されています。
ユーザーが text2midi を操作できるように、コードと音楽のサンプルをデモ ページ (https://github.com/AMAAI-Lab/Text2midi) で公開しています。


This paper introduces text2midi, an end-to-end model to generate MIDI files from textual descriptions. Leveraging the growing popularity of multimodal generative approaches, text2midi capitalizes on the extensive availability of textual data and the success of large language models (LLMs). Our end-to-end system harnesses the power of LLMs to generate symbolic music in the form of MIDI files. Specifically, we utilize a pretrained LLM encoder to process captions, which then condition an autoregressive transformer decoder to produce MIDI sequences that accurately reflect the provided descriptions. This intuitive and user-friendly method significantly streamlines the music creation process by allowing users to generate music pieces using text prompts. We conduct comprehensive empirical evaluations, incorporating both automated and human studies, that show our model generates MIDI files of high quality that are indeed controllable by text captions that may include music theory terms such as chords, keys, and tempo. We release the code and music samples on our demo page (https://github.com/AMAAI-Lab/Text2midi) for users to interact with text2midi.


著者 Keshav Bhandari,Abhinaba Roy,Kyra Wang,Geeta Puri,Simon Colton,Dorien Herremans
発行日 2024-12-31 07:56:59+00:00
