要約
近年の画像ベースのヒューマンアニメーション手法は、リアルな身体や顔の動き合成を実現する一方で、きめ細かな全体的制御性、マルチスケール適応性、長期的な時間的一貫性において決定的なギャップが残っており、表現力やロバスト性の低下を招いている。我々は、これらの限界を克服するために、拡散変換(DiT)ベースのフレームワークであるDreamActor-M1とハイブリッドガイダンスを提案する。モーションガイダンスでは、暗黙的な顔表現、3D頭部球体、3D身体スケルトンを統合したハイブリッド制御信号により、表情と身体の動きのロバストな制御を実現し、表現豊かでアイデンティティを保持したアニメーションを生成する。スケール適応については、ポートレートから全身像までの様々な身体ポーズと画像スケールに対応するため、様々な解像度とスケールのデータを用いた漸進的な学習戦略を採用している。アピアランスガイダンスについては、連続するフレームからのモーションパターンを補完的な視覚参照と統合することで、複雑な動きの間の未視認領域の長期的な時間的一貫性を確保する。本手法は、ポートレート、上半身、および全身生成において、長期的な一貫性を維持したまま表現力豊かな結果を提供し、最先端技術を凌駕することを実験により実証している。プロジェクトページ: https://grisoon.github.io/DreamActor-M1/.
要約(オリジナル)
While recent image-based human animation methods achieve realistic body and facial motion synthesis, critical gaps remain in fine-grained holistic controllability, multi-scale adaptability, and long-term temporal coherence, which leads to their lower expressiveness and robustness. We propose a diffusion transformer (DiT) based framework, DreamActor-M1, with hybrid guidance to overcome these limitations. For motion guidance, our hybrid control signals that integrate implicit facial representations, 3D head spheres, and 3D body skeletons achieve robust control of facial expressions and body movements, while producing expressive and identity-preserving animations. For scale adaptation, to handle various body poses and image scales ranging from portraits to full-body views, we employ a progressive training strategy using data with varying resolutions and scales. For appearance guidance, we integrate motion patterns from sequential frames with complementary visual references, ensuring long-term temporal coherence for unseen regions during complex movements. Experiments demonstrate that our method outperforms the state-of-the-art works, delivering expressive results for portraits, upper-body, and full-body generation with robust long-term consistency. Project Page: https://grisoon.github.io/DreamActor-M1/.
arxiv情報
| 著者 | Yuxuan Luo,Zhengkun Rong,Lizhen Wang,Longhao Zhang,Tianshu Hu,Yongming Zhu |
| 発行日 | 2025-04-03 14:51:10+00:00 |
| arxivサイト | arxiv_id(pdf) |