Video Background Music Generation: Dataset, Method and Evaluation

要約

動画編集に音楽は欠かせないが、手作業で選曲するのは難しく、時間もかかる。そこで我々は、ビデオ入力からBGMトラックを自動生成することを目指す。これは、音楽-動画データセット、動画-音楽生成のための効率的なアーキテクチャ、合理的なメトリクスを必要とするため、困難なタスクである。このギャップを埋めるために、我々はデータセット、ベンチマークモデル、そしてビデオBGM生成の評価指標を含む完全なレシピを紹介する。SymMVは、様々な音楽注釈を持つ動画と記号音楽のデータセットである。我々の知る限り、これは豊富な音楽注釈を持つ最初の動画像音楽データセットである。また、V-MusProdと名付けたベンチマークビデオBGM生成フレームワークを提案する。V-MusProdは、和音、メロディ、伴奏の音楽プライアと、意味、色、動きの特徴のビデオ-音楽関係を利用する。ビデオと音楽の対応関係のための客観的なメトリックの欠如に対処するために、我々は、強力なビデオ音楽表現学習モデルに基づいて構築された検索ベースのメトリックVMCPを設計する。実験によると、我々のデータセットを用いた場合、V-MusProdは音楽の品質と動画との対応性の両方において、最先端の手法を凌駕している。我々は、我々のデータセット、ベンチマークモデル、評価指標が、ビデオBGM生成の発展を後押しすると信じている。我々のデータセットとコードはhttps://github.com/zhuole1025/SymMV。

要約(オリジナル)

Music is essential when editing videos, but selecting music manually is difficult and time-consuming. Thus, we seek to automatically generate background music tracks given video input. This is a challenging task since it requires music-video datasets, efficient architectures for video-to-music generation, and reasonable metrics, none of which currently exist. To close this gap, we introduce a complete recipe including dataset, benchmark model, and evaluation metric for video background music generation. We present SymMV, a video and symbolic music dataset with various musical annotations. To the best of our knowledge, it is the first video-music dataset with rich musical annotations. We also propose a benchmark video background music generation framework named V-MusProd, which utilizes music priors of chords, melody, and accompaniment along with video-music relations of semantic, color, and motion features. To address the lack of objective metrics for video-music correspondence, we design a retrieval-based metric VMCP built upon a powerful video-music representation learning model. Experiments show that with our dataset, V-MusProd outperforms the state-of-the-art method in both music quality and correspondence with videos. We believe our dataset, benchmark model, and evaluation metric will boost the development of video background music generation. Our dataset and code are available at https://github.com/zhuole1025/SymMV.

arxiv情報

著者 Le Zhuo,Zhaokai Wang,Baisen Wang,Yue Liao,Chenxi Bao,Stanley Peng,Songhao Han,Aixi Zhang,Fei Fang,Si Liu
発行日 2023-08-04 15:57:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS パーマリンク