Do You Guys Want to Dance: Zero-Shot Compositional Human Dance Generation with Multiple Persons

要約

ヒューマン ダンス ジェネレーション (HDG) は、画像と一連のドライビング ポーズからリアルなビデオを合成することを目的としています。
大きな成功を収めたにもかかわらず、既存の方法は特定の背景を持つ 1 人の人物のビデオを生成することに限定されており、複数の人物と複雑な背景を持つ現実世界のシナリオの一般化可能性は依然として不明です。
HDG モデルの一般化可能性を系統的に測定するために、構成的ヒューマン ダンス生成 (cHDG) の新しいタスク、データセット、評価プロトコルを導入します。
cHDG に関する最先端の手法を評価すると、それらが現実世界のシナリオに一般化できないことが経験的にわかります。
この問題に取り組むために、私たちは、MultiDance-Zero と呼ばれる新しいゼロショット フレームワークを提案します。これは、運転ポーズを正確に追跡しながら、任意の複数の人物と背景と一致するビデオを合成できます。
具体的には、単純な DDIM またはヌルテキスト反転とは対照的に、最初に、合成された参照画像を正確に再構成できる、ノイズを含む潜在コードと初期化テキスト埋め込みを取得するための姿勢認識反転方法を提示します。
これらからビデオを直接生成すると、外観上の重大な不一致が生じるため、拡張画像を生成し、それらを利用して一連の一般化可能なテキスト埋め込みを最適化する構成拡張戦略を提案します。
さらに、一貫性ガイド サンプリングは、各逆ステップで推定されたクリーンな画像の背景とキーポイントが参照画像の背景とキーポイントに近づくように改良されており、生成されたビデオの時間的一貫性がさらに向上します。
広範な定性的および定量的な結果は、私たちのアプローチの有効性と優位性を示しています。

要約(オリジナル)

Human dance generation (HDG) aims to synthesize realistic videos from images and sequences of driving poses. Despite great success, existing methods are limited to generating videos of a single person with specific backgrounds, while the generalizability for real-world scenarios with multiple persons and complex backgrounds remains unclear. To systematically measure the generalizability of HDG models, we introduce a new task, dataset, and evaluation protocol of compositional human dance generation (cHDG). Evaluating the state-of-the-art methods on cHDG, we empirically find that they fail to generalize to real-world scenarios. To tackle the issue, we propose a novel zero-shot framework, dubbed MultiDance-Zero, that can synthesize videos consistent with arbitrary multiple persons and background while precisely following the driving poses. Specifically, in contrast to straightforward DDIM or null-text inversion, we first present a pose-aware inversion method to obtain the noisy latent code and initialization text embeddings, which can accurately reconstruct the composed reference image. Since directly generating videos from them will lead to severe appearance inconsistency, we propose a compositional augmentation strategy to generate augmented images and utilize them to optimize a set of generalizable text embeddings. In addition, consistency-guided sampling is elaborated to encourage the background and keypoints of the estimated clean image at each reverse step to be close to those of the reference image, further improving the temporal consistency of generated videos. Extensive qualitative and quantitative results demonstrate the effectiveness and superiority of our approach.

arxiv情報

著者 Zhe Xu,Kun Wei,Xu Yang,Cheng Deng
発行日 2024-01-24 10:44:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク