DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance

要約

最近の画像ベースのヒューマンアニメーション方法は、現実的な身体と顔の動きの合成を実現しますが、重要なギャップは、微細な全体的な制御可能性、マルチスケール適応性、および長期的な時間的一貫性を維持し、表現力と堅牢性の低下につながります。
これらの制限を克服するためのハイブリッドガイダンスを備えた拡散トランス(DIT)ベースのフレームワーク、DreamActor-M1を提案します。
モーションガイダンスのために、暗黙の顔の表現、3Dヘッド球体、3Dボディスケルトンを統合するハイブリッド制御シグナルは、表情型およびアイデンティティを提供するアニメーションを生成しながら、表情と身体の動きの堅牢な制御を実現します。
スケール適応のために、ポートレートから全身ビューに至るまでのさまざまなボディポーズや画像スケールを処理するために、さまざまな解像度とスケールを備えたデータを使用してプログレッシブトレーニング戦略を採用しています。
外観ガイダンスのために、シーケンシャルフレームからのモーションパターンを補完的な視覚参照と統合し、複雑な動き中に目に見えない領域の長期的な時間的一貫性を確保します。
実験は、私たちの方法が最先端の作品よりも優れていることを示しており、ポートレート、上半身、および全身の生成に表現力豊かな結果を提供し、堅牢な長期の一貫性をもたらします。
プロジェクトページ:https://grisoon.github.io/dreamactor-m1/。

要約(オリジナル)

While recent image-based human animation methods achieve realistic body and facial motion synthesis, critical gaps remain in fine-grained holistic controllability, multi-scale adaptability, and long-term temporal coherence, which leads to their lower expressiveness and robustness. We propose a diffusion transformer (DiT) based framework, DreamActor-M1, with hybrid guidance to overcome these limitations. For motion guidance, our hybrid control signals that integrate implicit facial representations, 3D head spheres, and 3D body skeletons achieve robust control of facial expressions and body movements, while producing expressive and identity-preserving animations. For scale adaptation, to handle various body poses and image scales ranging from portraits to full-body views, we employ a progressive training strategy using data with varying resolutions and scales. For appearance guidance, we integrate motion patterns from sequential frames with complementary visual references, ensuring long-term temporal coherence for unseen regions during complex movements. Experiments demonstrate that our method outperforms the state-of-the-art works, delivering expressive results for portraits, upper-body, and full-body generation with robust long-term consistency. Project Page: https://grisoon.github.io/DreamActor-M1/.

arxiv情報

著者 Yuxuan Luo,Zhengkun Rong,Lizhen Wang,Longhao Zhang,Tianshu Hu,Yongming Zhu
発行日 2025-04-02 13:30:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク