HumanDiT: Pose-Guided Diffusion Transformer for Long-form Human Motion Video Generation

要約

人間のモーションビデオ生成は大幅に進歩していますが、既存の方法は、特に長いシーケンスや複雑な動きで、手や顔のような詳細な身体部分を正確にレンダリングすることに苦労しています。
現在のアプローチは、固定解像度にも依存しており、視覚的な一貫性を維持するために苦労しています。
これらの制限に対処するために、14,000時間の高品質ビデオを含む大規模で野生のデータセットで訓練されたポーズ誘導拡散変圧器（DIT）ベースのフレームワークであるHumanditを提案して、微調整されたボディレンダリングを備えた高フィデリティビデオを作成します。
具体的には、（i）DITに基づいて構築されたHumanditは、多数のビデオ解像度と可変シーケンスの長さをサポートし、長期順序ビデオ生成の学習を促進します。
（ii）拡張されたシーケンス全体でパーソナライズされた特性を維持するために、プレフィックスを含む参照戦略を紹介します。
さらに、推論中、HumanditはKeypoint-Ditを活用して後続のポーズシーケンスを生成し、静的画像または既存のビデオからのビデオの継続を促進します。
また、ポーズアダプターを使用して、指定されたシーケンスを使用してポーズ転送を可能にします。
広範な実験は、多様なシナリオ全体で長期にわたるポーズaccurateビデオを生成する上で優れたパフォーマンスを示しています。

要約(オリジナル)

Human motion video generation has advanced significantly, while existing methods still struggle with accurately rendering detailed body parts like hands and faces, especially in long sequences and intricate motions. Current approaches also rely on fixed resolution and struggle to maintain visual consistency. To address these limitations, we propose HumanDiT, a pose-guided Diffusion Transformer (DiT)-based framework trained on a large and wild dataset containing 14,000 hours of high-quality video to produce high-fidelity videos with fine-grained body rendering. Specifically, (i) HumanDiT, built on DiT, supports numerous video resolutions and variable sequence lengths, facilitating learning for long-sequence video generation; (ii) we introduce a prefix-latent reference strategy to maintain personalized characteristics across extended sequences. Furthermore, during inference, HumanDiT leverages Keypoint-DiT to generate subsequent pose sequences, facilitating video continuation from static images or existing videos. It also utilizes a Pose Adapter to enable pose transfer with given sequences. Extensive experiments demonstrate its superior performance in generating long-form, pose-accurate videos across diverse scenarios.

arxiv情報

著者	Qijun Gan,Yi Ren,Chen Zhang,Zhenhui Ye,Pan Xie,Xiang Yin,Zehuan Yuan,Bingyue Peng,Jianke Zhu
発行日	2025-02-10 14:51:29+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

HumanDiT: Pose-Guided Diffusion Transformer for Long-form Human Motion Video Generation

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー