X-Dancer: Expressive Music to Human Dance Video Generation

要約

X-Dancerは、単一の静的画像から多様で長距離のリアルなヒューマンダンスビデオを作成する、新しいゼロショット音楽駆動型の音楽駆動型の画像アニメーションパイプラインを紹介します。
そのコアとして、2Dボディ、ヘッド、ハンドポーズの拡張および音楽同期トークンシーケンスを合成する自己回帰トランスモデルを特徴とする統合変圧器拡散フレームワークを紹介します。

3Dで主に人間の動きを生成する従来の方法とは異なり、X-Dancerはデータの制限に対処し、2Dダンスの動きの幅広いスペクトルをモデル化することでスケーラビリティを向上させ、容易に利用可能なモノクラービデオを通して音楽ビートとの微妙なアライメントをキャプチャします。
これを達成するために、最初に、キーポイントの自信に関連する2Dヒトポーズラベルから空間的に組成されたトークン表現を構築し、両方の大きな明確な体の動き(上部と下半身など)と細粒の動き(例:頭と手など)をコードします。
次に、音楽調整されたダンスポーズトークンシーケンスを自動化する音楽変圧器モデルを設計し、音楽スタイルと以前のモーションコンテキストの両方にグローバルな注意を組み込みます。
最後に、拡散バックボーンを活用して、これらの合成されたポーズトークンを使用して参照画像をアニメーション化し、完全に微分可能なエンドツーエンドフレームワークを形成します。
実験結果は、X-Dancerが多様で特徴付けられたダンスビデオの両方を作成できることを示しています。
コードとモデルは、研究目的で利用できます。

要約(オリジナル)

We present X-Dancer, a novel zero-shot music-driven image animation pipeline that creates diverse and long-range lifelike human dance videos from a single static image. As its core, we introduce a unified transformer-diffusion framework, featuring an autoregressive transformer model that synthesize extended and music-synchronized token sequences for 2D body, head and hands poses, which then guide a diffusion model to produce coherent and realistic dance video frames. Unlike traditional methods that primarily generate human motion in 3D, X-Dancer addresses data limitations and enhances scalability by modeling a wide spectrum of 2D dance motions, capturing their nuanced alignment with musical beats through readily available monocular videos. To achieve this, we first build a spatially compositional token representation from 2D human pose labels associated with keypoint confidences, encoding both large articulated body movements (e.g., upper and lower body) and fine-grained motions (e.g., head and hands). We then design a music-to-motion transformer model that autoregressively generates music-aligned dance pose token sequences, incorporating global attention to both musical style and prior motion context. Finally we leverage a diffusion backbone to animate the reference image with these synthesized pose tokens through AdaIN, forming a fully differentiable end-to-end framework. Experimental results demonstrate that X-Dancer is able to produce both diverse and characterized dance videos, substantially outperforming state-of-the-art methods in term of diversity, expressiveness and realism. Code and model will be available for research purposes.

arxiv情報

著者 Zeyuan Chen,Hongyi Xu,Guoxian Song,You Xie,Chenxu Zhang,Xin Chen,Chao Wang,Di Chang,Linjie Luo
発行日 2025-02-24 18:47:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク