VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling

要約

この研究では、ビデオのみを条件とした音楽生成を体系的に研究します。
まず、映画の予告編、広告、ドキュメンタリーなどのさまざまなジャンルを含む、19 万のビデオと音楽のペアで構成される大規模なデータセットを提示します。
さらに、ビデオ入力に合わせて音楽を生成するためのシンプルなフレームワークである VidMuse を提案します。
VidMuse は、音響的にも意味的にもビデオと一致する高忠実度の音楽を作成することで際立っています。
VidMuse は、ローカルおよびグローバルのビジュアル キューを組み込むことで、長期短期モデリングを通じてビデオ コンテンツと一貫して一致する、音楽的に一貫したオーディオ トラックの作成を可能にします。
広範な実験を通じて、VidMuse は、オーディオ品質、多様性、およびオーディオとビジュアルの整合性の点で既存のモデルを上回っています。
コードとデータセットは https://github.com/ZeyueT/VidMuse/ で入手できます。

要約(オリジナル)

In this work, we systematically study music generation conditioned solely on the video. First, we present a large-scale dataset comprising 190K video-music pairs, including various genres such as movie trailers, advertisements, and documentaries. Furthermore, we propose VidMuse, a simple framework for generating music aligned with video inputs. VidMuse stands out by producing high-fidelity music that is both acoustically and semantically aligned with the video. By incorporating local and global visual cues, VidMuse enables the creation of musically coherent audio tracks that consistently match the video content through Long-Short-Term modeling. Through extensive experiments, VidMuse outperforms existing models in terms of audio quality, diversity, and audio-visual alignment. The code and datasets will be available at https://github.com/ZeyueT/VidMuse/.

arxiv情報

著者 Zeyue Tian,Zhaoyang Liu,Ruibin Yuan,Jiahao Pan,Xiaoqiang Huang,Qifeng Liu,Xu Tan,Qifeng Chen,Wei Xue,Yike Guo
発行日 2024-06-06 17:58:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD パーマリンク