Long-Term Rhythmic Video Soundtracker

要約

タイトル:長期リズミックビデオサウンドトラッカー
要約:
– ビジュアルキューに同期した楽曲サウンドトラックを生成する問題を考える
– 既存の作品の多くは、事前定義された音楽表現に依存しており、生成的な柔軟性と複雑性に欠けている。
– 他の方法では直接ビデオ条件のウェーブフォームを生成することで、限られたシナリオ、短い長さ、不安定な生成品質に苦しんでいる。
– このために、長期リズミックビデオサウンドトラッカー(LORIS)という新しいフレームワークが提案されています。これは、長期条件付きのウェーブフォームの生成を行うための構造で構成されています。
– 特に、私たちのフレームワークには、ウェーブフォーム合成を行うための潜在条件拡散確率モデルがあります。さらに、長期世代のために、時間情報を考慮するコンテキストに配慮した複数のエンコーダが提案されています。
– 特に、ダンスから床運動やフィギュアスケートなど、複数のスポーツシナリオに対するモデルの適用範囲を拡大しています。
– 網羅的な評価を行うために、改良された評価メトリックおよび強力な生成基線を備えたリズミックビデオサウンドトラックのベンチマークが確立されています。
– 大規模な実験により、当社のモデルが最新の音楽品質とリズミックな対応を持つ長期サウンドトラックを生成することが証明されました。コードは次にあります。\url{https://github.com/OpenGVLab/LORIS}。

要約(オリジナル)

We consider the problem of generating musical soundtracks in sync with rhythmic visual cues. Most existing works rely on pre-defined music representations, leading to the incompetence of generative flexibility and complexity. Other methods directly generating video-conditioned waveforms suffer from limited scenarios, short lengths, and unstable generation quality. To this end, we present Long-Term Rhythmic Video Soundtracker (LORIS), a novel framework to synthesize long-term conditional waveforms. Specifically, our framework consists of a latent conditional diffusion probabilistic model to perform waveform synthesis. Furthermore, a series of context-aware conditioning encoders are proposed to take temporal information into consideration for a long-term generation. Notably, we extend our model’s applicability from dances to multiple sports scenarios such as floor exercise and figure skating. To perform comprehensive evaluations, we establish a benchmark for rhythmic video soundtracks including the pre-processed dataset, improved evaluation metrics, and robust generative baselines. Extensive experiments show that our model generates long-term soundtracks with state-of-the-art musical quality and rhythmic correspondence. Codes are available at \url{https://github.com/OpenGVLab/LORIS}.

arxiv情報

著者 Jiashuo Yu,Yaohui Wang,Xinyuan Chen,Xiao Sun,Yu Qiao
発行日 2023-05-02 10:58:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS パーマリンク