V2Meow: Meowing to the Visual Beat via Music Generation

要約

タイトル:V2Meow:音楽生成によるビジュアルビートのミウシカ
要約:
– ビデオの視覚的コンテンツに合わせた高品質な音楽を生成することは難しいタスクである。
– 既存のビジュアル条件付き音楽生成システムは、MIDIファイルなどのシンボリックな音楽データを生成するため、シンボリックな音楽データの入手が限られているため、特定の種類のビジュアル入力や数少ない楽器に対してのみ音楽を生成することができる。
– 本稿では、「V2Meow」という新しいアプローチを提案し、さまざまなタイプのビデオ入力に適合する高品質な音楽音声を生成できるようにした。
– 提案された音楽生成システムは、複数のO(100K)の音楽オーディオクリップをビデオフレームとペアにしてトレーニングされたマルチステージのオートリグレッシブモデルである。並列のシンボリックな音楽データは使わない。V2Meowは、任意の静止ビデオクリップから抽出された事前学習済みのビジュアル特徴に基づいて高精度な音楽音声波形を合成することができる。また、ビデオフレームの条件付けに加えて、テキストのプロンプトをサポートすることにより、生成例の音楽スタイルを高レベルで制御することができる。
– 定性的および定量的な評価により、私たちは、私たちのモデルが視覚音声の対応性と音質の両方においていくつかの既存の音楽生成システムを上回っていることを示した。

要約(オリジナル)

Generating high quality music that complements the visual content of a video is a challenging task. Most existing visual conditioned music generation systems generate symbolic music data, such as MIDI files, instead of raw audio waveform. Given the limited availability of symbolic music data, such methods can only generate music for a few instruments or for specific types of visual input. In this paper, we propose a novel approach called V2Meow that can generate high-quality music audio that aligns well with the visual semantics of a diverse range of video input types. Specifically, the proposed music generation system is a multi-stage autoregressive model which is trained with a number of O(100K) music audio clips paired with video frames, which are mined from in-the-wild music videos, and no parallel symbolic music data is involved. V2Meow is able to synthesize high-fidelity music audio waveform solely conditioned on pre-trained visual features extracted from an arbitrary silent video clip, and it also allows high-level control over the music style of generation examples via supporting text prompts in addition to the video frames conditioning. Through both qualitative and quantitative evaluations, we demonstrate that our model outperforms several existing music generation systems in terms of both visual-audio correspondence and audio quality.

arxiv情報

著者 Kun Su,Judith Yue Li,Qingqing Huang,Dima Kuzmin,Joonseok Lee,Chris Donahue,Fei Sha,Aren Jansen,Yu Wang,Mauro Verzetti,Timo I. Denk
発行日 2023-05-11 06:26:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS パーマリンク