VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos

要約

ビデオ入力から BGM を生成する方法を学習するためのフレームワークを紹介します。
量と多様性が限られている記号的な音楽注釈に依存する既存の作品とは異なり、私たちの方法では、BGM を伴う大規模な Web ビデオを活用します。
これにより、モデルはリアルで多様な音楽を生成する方法を学習できるようになります。
この目標を達成するために、新しいセマンティックなビデオと音楽の調整スキームを備えた生成的なビデオと音楽のトランスフォーマーを開発します。
私たちのモデルは、自己回帰学習と対照学習を組み合わせた学習目標を使用しており、高レベルのビデオ コンテンツに合わせた音楽の生成を促進します。
また、生成された音楽ビートをビデオ内の低レベルのモーションと一致させるための、新しいビデオ ビート アラインメント スキームも導入します。
最後に、リアルなバックグラウンド ミュージックの生成に必要なビデオ内のきめ細かい視覚的手がかりをキャプチャするために、新しい時間ビデオ エンコーダー アーキテクチャを導入し、高密度にサンプリングされた多数のフレームで構成されるビデオを効率的に処理できるようにします。
私たちは、新しく厳選された DISCO-MV データセットに基づいてフレームワークをトレーニングします。このデータセットは 220 万個のビデオ音楽サンプルで構成されており、これはビデオ音楽生成に使用されていた以前のデータセットよりも桁違いに大きいです。
私たちの方法は、人間の評価を含むさまざまな音楽生成評価指標に従って、DISCO-MV および MusicCaps データセットに対する既存のアプローチよりも優れています。
結果は https://genjib.github.io/project_page/VMA/index.html で入手できます。

要約(オリジナル)

We present a framework for learning to generate background music from video inputs. Unlike existing works that rely on symbolic musical annotations, which are limited in quantity and diversity, our method leverages large-scale web videos accompanied by background music. This enables our model to learn to generate realistic and diverse music. To accomplish this goal, we develop a generative video-music Transformer with a novel semantic video-music alignment scheme. Our model uses a joint autoregressive and contrastive learning objective, which encourages the generation of music aligned with high-level video content. We also introduce a novel video-beat alignment scheme to match the generated music beats with the low-level motions in the video. Lastly, to capture fine-grained visual cues in a video needed for realistic background music generation, we introduce a new temporal video encoder architecture, allowing us to efficiently process videos consisting of many densely sampled frames. We train our framework on our newly curated DISCO-MV dataset, consisting of 2.2M video-music samples, which is orders of magnitude larger than any prior datasets used for video music generation. Our method outperforms existing approaches on the DISCO-MV and MusicCaps datasets according to various music generation evaluation metrics, including human evaluation. Results are available at https://genjib.github.io/project_page/VMAs/index.html

arxiv情報

著者 Yan-Bo Lin,Yu Tian,Linjie Yang,Gedas Bertasius,Heng Wang
発行日 2024-09-11 17:56:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS パーマリンク