VampNet: Music Generation via Masked Acoustic Token Modeling

要約

音楽の合成、圧縮、修復、バリエーションに対するマスクされた音響トークン モデリング アプローチである VampNet を紹介します。
トレーニング中に可変マスキング スケジュールを使用します。これにより、推論中にさまざまなマスキング アプローチ (プロンプトと呼ばれる) を適用することで、モデルから一貫した音楽をサンプリングできます。
VampNet は非自己回帰であり、フォワード パス内のすべてのトークンに対応する双方向トランスフォーマー アーキテクチャを活用しています。
VampNet はわずか 36 回のサンプリング パスで、コヒーレントで忠実度の高い音楽波形を生成できます。
さまざまな方法で VampNet をプロンプトすることで、VampNet を音楽の圧縮、インペイント、アウトペイント、継続、バリエーションのあるループ (ヴァンピング) などのタスクに適用できることを示します。
適切に促されると、VampNet は音楽のスタイル、ジャンル、楽器編成、その他の高レベルの側面を維持することができます。
この柔軟なプロンプト機能により、VampNet は強力な音楽共同制作ツールになります。
コードとオーディオのサンプルはオンラインで入手できます。

要約(オリジナル)

We introduce VampNet, a masked acoustic token modeling approach to music synthesis, compression, inpainting, and variation. We use a variable masking schedule during training which allows us to sample coherent music from the model by applying a variety of masking approaches (called prompts) during inference. VampNet is non-autoregressive, leveraging a bidirectional transformer architecture that attends to all tokens in a forward pass. With just 36 sampling passes, VampNet can generate coherent high-fidelity musical waveforms. We show that by prompting VampNet in various ways, we can apply it to tasks like music compression, inpainting, outpainting, continuation, and looping with variation (vamping). Appropriately prompted, VampNet is capable of maintaining style, genre, instrumentation, and other high-level aspects of the music. This flexible prompting capability makes VampNet a powerful music co-creation tool. Code and audio samples are available online.

arxiv情報

著者 Hugo Flores Garcia,Prem Seetharaman,Rithesh Kumar,Bryan Pardo
発行日 2023-07-10 16:42:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク