How Animals Dance (When You’re Not Looking)

要約

音楽を同期し、振り付け認識アニマルダンスビデオを生成するためのキーフレームベースのフレームワークを紹介します。
テキストからイメージへのプロンプトまたはGPT-4Oを介して生成される明確な動物のポーズを表すいくつかのキーフレームから始まります。グラフの最適化問題としてダンス合成を策定します。参照ダンスビデオから自動的に推定できるいくつかのビートの振付パターンを満たす最適なキーフレーム構造を見つけます。
また、ダンスの対称性をキャプチャするために不可欠なミラーポーズ画像生成のアプローチを紹介します。
中間フレームは、ビデオ拡散モデルを使用して合成されます。
わずか6つの入力キーフレームを使用すると、幅広い動物や音楽トラックで最大30秒のダンスビデオを作成できます。

要約(オリジナル)

We present a keyframe-based framework for generating music-synchronized, choreography aware animal dance videos. Starting from a few keyframes representing distinct animal poses — generated via text-to-image prompting or GPT-4o — we formulate dance synthesis as a graph optimization problem: find the optimal keyframe structure that satisfies a specified choreography pattern of beats, which can be automatically estimated from a reference dance video. We also introduce an approach for mirrored pose image generation, essential for capturing symmetry in dance. In-between frames are synthesized using an video diffusion model. With as few as six input keyframes, our method can produce up to 30 second dance videos across a wide range of animals and music tracks.

arxiv情報

著者 Xiaojuan Wang,Aleksander Holynski,Brian Curless,Ira Kemelmacher,Steve Seitz
発行日 2025-05-29 17:58:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク