要約
この作業では、ビデオのみで条件付けられた音楽生成を体系的に研究しています。
まず、映画の予告編、広告、ドキュメンタリーなどのさまざまなジャンルを含む、360Kビデオ音楽ペアで構成される大規模なデータセットを提示します。
さらに、ビデオ入力に合わせた音楽を生成するための簡単なフレームワークであるVidMuseを提案します。
VidMuseは、動画と音響的および意味的に整合する高忠実度の音楽を制作することで際立っています。
ローカルおよびグローバルな視覚的キューを組み込むことにより、VidMuseは、長期モデリングを通じてビデオコンテンツを一貫して一致させる音楽的に一貫したオーディオトラックを作成することができます。
広範な実験を通じて、VidMuseは、オーディオの品質、多様性、および視聴覚アライメントの観点から既存のモデルよりも優れています。
コードとデータセットはhttps://vidmuse.github.io/で入手できます。
要約(オリジナル)
In this work, we systematically study music generation conditioned solely on the video. First, we present a large-scale dataset comprising 360K video-music pairs, including various genres such as movie trailers, advertisements, and documentaries. Furthermore, we propose VidMuse, a simple framework for generating music aligned with video inputs. VidMuse stands out by producing high-fidelity music that is both acoustically and semantically aligned with the video. By incorporating local and global visual cues, VidMuse enables the creation of musically coherent audio tracks that consistently match the video content through Long-Short-Term modeling. Through extensive experiments, VidMuse outperforms existing models in terms of audio quality, diversity, and audio-visual alignment. The code and datasets are available at https://vidmuse.github.io/.
arxiv情報
著者 | Zeyue Tian,Zhaoyang Liu,Ruibin Yuan,Jiahao Pan,Qifeng Liu,Xu Tan,Qifeng Chen,Wei Xue,Yike Guo |
発行日 | 2025-05-07 15:59:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google