Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning

要約

最近、ビデオ拡散トランスのブレークスルーは、多様な運動世代に顕著な能力を示しています。
モーション移動タスクに関しては、現在の方法は主に2段階低ランク適応(LORAS)Finetuningを使用して、パフォーマンスを向上させます。
ただし、既存の適応ベースの動き転送は、大きなビデオ拡散トランスに適用されると、動きの矛盾と調整の非効率性に依然として苦しんでいます。
3D注意演算子に固有の空間的カップリングにより、生成されたビデオと入力ビデオの間の動きの一貫性を維持するための素朴な2段階のLoraチューニングは闘争します。
さらに、両方の段階で時間のかかる微調整プロセスが必要です。
これらの問題に取り組むために、私たちは、複雑な動きを合成するための強力なビデオ拡散トランスを獲得する効率的な2段階のビデオモーション転送フレームワークであるフォローモーションを提案します。
2番目のトレーニング段階では、スパースモーションサンプリングと適応ロープを設計して、チューニング速度を加速します。
このフィールドのベンチマークの欠如に対処するために、クリエイティブカメラの動き、単一オブジェクトの動き、複数のオブジェクトモーション、複雑な人間の動きなど、多様な動きを含む包括的なベンチマークであるMotionBenchを導入します。
MotionBenchの広範な評価を示して、フォローモーションの優位性を検証します。

要約(オリジナル)

Recently, breakthroughs in the video diffusion transformer have shown remarkable capabilities in diverse motion generations. As for the motion-transfer task, current methods mainly use two-stage Low-Rank Adaptations (LoRAs) finetuning to obtain better performance. However, existing adaptation-based motion transfer still suffers from motion inconsistency and tuning inefficiency when applied to large video diffusion transformers. Naive two-stage LoRA tuning struggles to maintain motion consistency between generated and input videos due to the inherent spatial-temporal coupling in the 3D attention operator. Additionally, they require time-consuming fine-tuning processes in both stages. To tackle these issues, we propose Follow-Your-Motion, an efficient two-stage video motion transfer framework that finetunes a powerful video diffusion transformer to synthesize complex motion.Specifically, we propose a spatial-temporal decoupled LoRA to decouple the attention architecture for spatial appearance and temporal motion processing. During the second training stage, we design the sparse motion sampling and adaptive RoPE to accelerate the tuning speed. To address the lack of a benchmark for this field, we introduce MotionBench, a comprehensive benchmark comprising diverse motion, including creative camera motion, single object motion, multiple object motion, and complex human motion. We show extensive evaluations on MotionBench to verify the superiority of Follow-Your-Motion.

arxiv情報

著者 Yue Ma,Yulong Liu,Qiyuan Zhu,Ayden Yang,Kunyu Feng,Xinhua Zhang,Zhifeng Li,Sirui Han,Chenyang Qi,Qifeng Chen
発行日 2025-06-05 16:18:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク