MusicInfuser: Making Video Diffusion Listen and Dance

要約

MusicInfuserを紹介します。これは、指定された音楽トラックに同期される高品質のダンスビデオを生成するためのアプローチです。
新しいマルチモーダルオーディオビデオモデルの設計とトレーニングを試みるのではなく、既存のビデオ拡散モデルを、軽量の音楽ビデオクロスアテンションと低ランクアダプターを導入することにより、音楽の入力に合わせてどのように調整できるかを示します。
モーションキャプチャデータを必要とする以前の作業とは異なり、私たちのアプローチはダンスビデオでのみ微調整されています。
MusicInfuserは、基礎となるモデルの柔軟性と生成能力を維持しながら、高品質の音楽主導のビデオ生成を実現します。
Video LLMを使用して評価フレームワークを紹介して、ダンス生成品質の複数の次元を評価します。
プロジェクトページとコードは、https://susunghong.github.io/musicinfuserで入手できます。

要約(オリジナル)

We introduce MusicInfuser, an approach for generating high-quality dance videos that are synchronized to a specified music track. Rather than attempting to design and train a new multimodal audio-video model, we show how existing video diffusion models can be adapted to align with musical inputs by introducing lightweight music-video cross-attention and a low-rank adapter. Unlike prior work requiring motion capture data, our approach fine-tunes only on dance videos. MusicInfuser achieves high-quality music-driven video generation while preserving the flexibility and generative capabilities of the underlying models. We introduce an evaluation framework using Video-LLMs to assess multiple dimensions of dance generation quality. The project page and code are available at https://susunghong.github.io/MusicInfuser.

arxiv情報

著者 Susung Hong,Ira Kemelmacher-Shlizerman,Brian Curless,Steven M. Seitz
発行日 2025-03-18 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク