要約
このレポートでは、一貫した人間のイメージアニメーションのためのオープンソースWAN2.1モデルの最先端で強力な機能を活用する高度なプロジェクトであるUnianimate-Ditを提示します。
具体的には、元のWAN2.1モデルの堅牢な生成機能を保存するために、最小限のパラメーターセットを微調整してトレーニングメモリオーバーヘッドを大幅に削減するために、低ランク適応(LORA)手法を実装します。
複数の積み重ねられた3D畳み込み層で構成される軽量のポーズエンコーダーは、運転ポーズのモーション情報をエンコードするように設計されています。
さらに、簡単な連結操作を採用して、参照の外観をモデルに統合し、参照画像のポーズ情報を組み込み、ポーズアライメントを強化します。
実験結果は、私たちのアプローチが視覚的に表示され、一時的に一貫した高忠実度アニメーションを達成することを示しています。
480p(832×480)のビデオでトレーニングされたUnianimate-ditは、推論中に720p(1280×720)にシームレスにアップスケールする強力な一般化能力を示しています。
トレーニングおよび推論コードは、https://github.com/ali-vilab/unianimate-ditで公開されています。
要約(オリジナル)
This report presents UniAnimate-DiT, an advanced project that leverages the cutting-edge and powerful capabilities of the open-source Wan2.1 model for consistent human image animation. Specifically, to preserve the robust generative capabilities of the original Wan2.1 model, we implement Low-Rank Adaptation (LoRA) technique to fine-tune a minimal set of parameters, significantly reducing training memory overhead. A lightweight pose encoder consisting of multiple stacked 3D convolutional layers is designed to encode motion information of driving poses. Furthermore, we adopt a simple concatenation operation to integrate the reference appearance into the model and incorporate the pose information of the reference image for enhanced pose alignment. Experimental results show that our approach achieves visually appearing and temporally consistent high-fidelity animations. Trained on 480p (832×480) videos, UniAnimate-DiT demonstrates strong generalization capabilities to seamlessly upscale to 720P (1280×720) during inference. The training and inference code is publicly available at https://github.com/ali-vilab/UniAnimate-DiT.
arxiv情報
著者 | Xiang Wang,Shiwei Zhang,Longxiang Tang,Yingya Zhang,Changxin Gao,Yuehuan Wang,Nong Sang |
発行日 | 2025-04-15 15:29:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google