Local deployment of large-scale music AI models on commodity hardware

要約

私たちは、汎用ハードウェア上でローカルに大規模な生成 AI モデルを使用して象徴的な音楽を生成できる Web アプリケーションである MIDIInfinite を紹介します。
このデモの作成には、Lakh MIDI データセットで事前トレーニングされた大規模言語モデル (LLM) である Anticipatory Music Transformer を Machine Learning Compilation (MLC) フレームワークに移植することが含まれていました。
モデルが移植されると、MLC により、C++、モバイル、ブラウザーなどのさまざまなランタイムでの推論が容易になります。
私たちは、MLC が、ますます高性能になる音楽 AI モデルと、音楽ソフトウェア開発者にとってより馴染みのあるテクノロジーとの間のギャップを埋める可能性を秘めていると考えています。
概念実証として、ユーザーがブラウザーでマルチ楽器 MIDI の無限のストリームを最初から、またはプロンプトに応じて生成できる Web アプリケーションを構築します。
一般的なハードウェア (M3 Macbook Pro) では、デモは 1 秒あたり 51 ノートを生成できます。これは、72.9% の世代でリアルタイム再生よりも高速であり、2 秒の事前バッファリングでは 86.3% まで増加します。

要約(オリジナル)

We present the MIDInfinite, a web application capable of generating symbolic music using a large-scale generative AI model locally on commodity hardware. Creating this demo involved porting the Anticipatory Music Transformer, a large language model (LLM) pre-trained on the Lakh MIDI dataset, to the Machine Learning Compilation (MLC) framework. Once the model is ported, MLC facilitates inference on a variety of runtimes including C++, mobile, and the browser. We envision that MLC has the potential to bridge the gap between the landscape of increasingly capable music AI models and technology more familiar to music software developers. As a proof of concept, we build a web application that allows users to generate endless streams of multi-instrumental MIDI in the browser, either from scratch or conditioned on a prompt. On commodity hardware (an M3 Macbook Pro), our demo can generate 51 notes per second, which is faster than real-time playback for 72.9% of generations, and increases to 86.3% with 2 seconds of upfront buffering.

arxiv情報

著者 Xun Zhou,Charlie Ruan,Zihe Zhao,Tianqi Chen,Chris Donahue
発行日 2024-11-14 17:49:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク