VampNet: Music Generation via Masked Acoustic Token Modeling

要約

音楽の合成、圧縮、修復、バリエーションに対するマスクされた音響トークンモデリングアプローチである VampNet を紹介します。
トレーニング中に可変マスキングスケジュールを使用します。これにより、推論中にさまざまなマスキングアプローチ (プロンプトと呼ばれる) を適用することで、モデルから一貫した音楽をサンプリングできます。
VampNet は非自己回帰であり、フォワードパス内のすべてのトークンに対応する双方向トランスフォーマーアーキテクチャを活用しています。
VampNet はわずか 36 回のサンプリングパスで、コヒーレントで忠実度の高い音楽波形を生成できます。
さまざまな方法で VampNet をプロンプトすることで、VampNet を音楽の圧縮、インペイント、アウトペイント、継続、バリエーションのあるループ (ヴァンピング) などのタスクに適用できることを示します。
適切に促されると、VampNet は音楽のスタイル、ジャンル、楽器編成、その他の高レベルの側面を維持することができます。
この柔軟なプロンプト機能により、VampNet は強力な音楽共同制作ツールになります。
コードとオーディオのサンプルはオンラインで入手できます。

要約(オリジナル)

We introduce VampNet, a masked acoustic token modeling approach to music synthesis, compression, inpainting, and variation. We use a variable masking schedule during training which allows us to sample coherent music from the model by applying a variety of masking approaches (called prompts) during inference. VampNet is non-autoregressive, leveraging a bidirectional transformer architecture that attends to all tokens in a forward pass. With just 36 sampling passes, VampNet can generate coherent high-fidelity musical waveforms. We show that by prompting VampNet in various ways, we can apply it to tasks like music compression, inpainting, outpainting, continuation, and looping with variation (vamping). Appropriately prompted, VampNet is capable of maintaining style, genre, instrumentation, and other high-level aspects of the music. This flexible prompting capability makes VampNet a powerful music co-creation tool. Code and audio samples are available online.

arxiv情報

著者	Hugo Flores Garcia,Prem Seetharaman,Rithesh Kumar,Bryan Pardo
発行日	2023-07-12 17:06:41+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

VampNet: Music Generation via Masked Acoustic Token Modeling

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー